مارال ابراهيم زاده

عنوان

استخراج ويژگي به منظور بهبود روش‎هاي شناسايي موسيقي

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

هوش مصنوعي و رباتيك

تاريخ دفاع

دي 1395

استاد راهنما

دكتر احمد اكبري

استاد مشاور

دكتر بابك ناصرشريف

دانشكده

كامپيوتر

چكيده

با توجه به افزايش روزافزون قطعات موسيقي، در سال‎هاي اخير تحقيقات بسياري در زمينه بازيابي اطلاعات موسيقي انجام گرفته است كه يكي از آن‎ها استفاده از اثرانگشت صوتي براي شناسايي موسيقي مي‎باشد. اثرانگشت صوتي به ويژگي‎هاي مرتبط به محتواي صوت گفته مي‎شود كه يك قطعه صوتي را خلاصه مي‎كند، تا بدين گونه عمل شناسايي موسيقي به صورت كارا انجام پذيرد. يكي از روش‎هاي پايه‎اي كه براي شناسايي موسيقي با استفاده از اثرانگشت صوتي وجود دارد، روش فيليپس است. در روش فيليپس، سيگنال صوتي دريافتي به قاب‎هاي هم‎پوشان تقسيم مي‎شود و سپس هر قاب با استفاده از يك بانك فيلتر به 33 زير باند فركانسي تقسيم مي‎شود. با استفاده از انرژي اين باند‎ها براي هر قاب يك زير‎اثر‎انگشت 32 بيتي به دست مي آيد. يكي از نقاط ضعف روش فيليپس، شناسايي موسيقي در شرايط نويزي مي‎باشد. در اين پايان‎نامه دو روش براي اصلاح روش فيليپس پيشنهاد مي‎شود كه با اين نقطه ضعف مقابله كند. در روش پيشنهادي اول بيت‎هاي اثر‎انگشت با استفاده از 3 باند فركانسي توليد مي شود و علاوه بر آن از يك ماسك توان استفاده مي‎شود. ماسك توان يك ماتريس وزن‎ است كه به بيت‎هاي اثر‎انگشت نسبت داده مي‎شود به طوري‎كه به بيت‎هايي كه احتمال نويزي شدنشان بيشتر است وزن كمتر و به ساير بيت‎هايي كه به احتمال زياد سالم مانده‎اند، وزن بيشتري را نسبت مي‎دهد. به اين ترتيب بيت‎هاي سالم، نقش بيشتري را در شناسايي قطعه مورد نظر ايفا مي‎كنند. در روش پيشنهادي دوم براي استخراج ويژگي در حوزه زمان-فركانس از تبديل موجك استفاده مي‎شود. به اين صورت تحليل سيگنال در سطوح مختلفي از جزئيات امكان‎پذير مي‎شود. نتايج آزمايش‎ها بر روي مجموعه داده‎اي شامل 250 آهنگ 15 ثانيه‎اي منتخب از دادگان GTZAN نشان مي‎دهد كه در روش پيشنهادي اول، براي شناسايي قطعه موسيقي در شرايط نويزي ميانگين دقت از 06/86 % به 06/96% و بدون كاهش سرعت شناسايي رسيده است و در روش پيشنهادي دوم ميانگين دقت به 6/99% رسيده است كه اين افزايش دقت با كاهش سرعت شناسايي همراه است.

تاريخ ورود اطلاعات

1396/03/26

تاريخ بهره برداري

1/1/1900 12:00:00 AM

دانشجوي وارد كننده اطلاعات

مارال ابراهيم زاده

Name: مارال ابراهيم زاده
Author: مارال ابراهيم زاده

چكيده به لاتين

According to the increasing amount of music pieces, in recent years, many researches have been conducted in the field of Music Information Retrieval. One of most known methods in this field is based on audio fingerprints. Audio fingerprints are content-based features for representation of a music piece in order to describe that piece for a music identification system. Philips method is one of the basic methods for identifying music. In Philips method, audio signal is divided into overlapping frames and each frame is divided into 33 sub-band frequencies using a filter bank. 32 bit fingerprint is generated using energy of theses frequency bands. One drawback of Philips basic method is its weakness for music identification in noisy conditions. In this thesis, two approaches are proposed to overcome this drawback. In the first approach, fingerprint bits are generated using 3 frequency bands. Furthermore, a power mask is used. A power mask is a weight matrix for the fingerprint bits which weight bits based on probability of their contamination with noise such that clean bits have more effects on identifying music pieces. In second proposed approach, wavelet transform is used for extracting features in time-frequency domain. In this way, it is possible to analyze the signal at different level of details. The experiments are performed on 250 audio tracks with length of 15 seconds selected from GTZAN dataset. Results show that for identifying music pieces in noisy conditions, the average of accuracy increases from 86.06 to 96.06 for the first approach where identification speed has not increased. On the other hand, average of accuracy in the second approach increase from 86.06 to 99.6 with more computational cost.

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=17471&Field=0&DTC=6