شماره ركورد
17471
شماره راهنما(اين فيلد مربوط به كارشناس ميباشد لطفا آن را خالي بگذاريد)
17471
پديد آورنده
مارال ابراهيم زاده
عنوان
استخراج ويژگي به منظور بهبود روشهاي شناسايي موسيقي
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
هوش مصنوعي و رباتيك
تاريخ دفاع
دي 1395
استاد راهنما
دكتر احمد اكبري
استاد مشاور
دكتر بابك ناصرشريف
دانشكده
كامپيوتر
چكيده
با توجه به افزايش روزافزون قطعات موسيقي، در سالهاي اخير تحقيقات بسياري در زمينه بازيابي اطلاعات موسيقي انجام گرفته است كه يكي از آنها استفاده از اثرانگشت صوتي براي شناسايي موسيقي ميباشد. اثرانگشت صوتي به ويژگيهاي مرتبط به محتواي صوت گفته ميشود كه يك قطعه صوتي را خلاصه ميكند، تا بدين گونه عمل شناسايي موسيقي به صورت كارا انجام پذيرد. يكي از روشهاي پايهاي كه براي شناسايي موسيقي با استفاده از اثرانگشت صوتي وجود دارد، روش فيليپس است. در روش فيليپس، سيگنال صوتي دريافتي به قابهاي همپوشان تقسيم ميشود و سپس هر قاب با استفاده از يك بانك فيلتر به 33 زير باند فركانسي تقسيم ميشود. با استفاده از انرژي اين باندها براي هر قاب يك زيراثرانگشت 32 بيتي به دست مي آيد. يكي از نقاط ضعف روش فيليپس، شناسايي موسيقي در شرايط نويزي ميباشد.
در اين پاياننامه دو روش براي اصلاح روش فيليپس پيشنهاد ميشود كه با اين نقطه ضعف مقابله كند. در روش پيشنهادي اول بيتهاي اثرانگشت با استفاده از 3 باند فركانسي توليد مي شود و علاوه بر آن از يك ماسك توان استفاده ميشود. ماسك توان يك ماتريس وزن است كه به بيتهاي اثرانگشت نسبت داده ميشود به طوريكه به بيتهايي كه احتمال نويزي شدنشان بيشتر است وزن كمتر و به ساير بيتهايي كه به احتمال زياد سالم ماندهاند، وزن بيشتري را نسبت ميدهد. به اين ترتيب بيتهاي سالم، نقش بيشتري را در شناسايي قطعه مورد نظر ايفا ميكنند. در روش پيشنهادي دوم براي استخراج ويژگي در حوزه زمان-فركانس از تبديل موجك استفاده ميشود. به اين صورت تحليل سيگنال در سطوح مختلفي از جزئيات امكانپذير ميشود.
نتايج آزمايشها بر روي مجموعه دادهاي شامل 250 آهنگ 15 ثانيهاي منتخب از دادگان GTZAN نشان ميدهد كه در روش پيشنهادي اول، براي شناسايي قطعه موسيقي در شرايط نويزي ميانگين دقت از 06/86 % به 06/96% و بدون كاهش سرعت شناسايي رسيده است و در روش پيشنهادي دوم ميانگين دقت به 6/99% رسيده است كه اين افزايش دقت با كاهش سرعت شناسايي همراه است.
تاريخ ورود اطلاعات
1396/03/26
تاريخ بهره برداري
1/1/1900 12:00:00 AM
دانشجوي وارد كننده اطلاعات
مارال ابراهيم زاده
چكيده به لاتين
According to the increasing amount of music pieces, in recent years, many researches have been conducted in the field of Music Information Retrieval. One of most known methods in this field is based on audio fingerprints. Audio fingerprints are content-based features for representation of a music piece in order to describe that piece for a music identification system. Philips method is one of the basic methods for identifying music. In Philips method, audio signal is divided into overlapping frames and each frame is divided into 33 sub-band frequencies using a filter bank. 32 bit fingerprint is generated using energy of theses frequency bands. One drawback of Philips basic method is its weakness for music identification in noisy conditions.
In this thesis, two approaches are proposed to overcome this drawback. In the first approach, fingerprint bits are generated using 3 frequency bands. Furthermore, a power mask is used. A power mask is a weight matrix for the fingerprint bits which weight bits based on probability of their contamination with noise such that clean bits have more effects on identifying music pieces. In second proposed approach, wavelet transform is used for extracting features in time-frequency domain. In this way, it is possible to analyze the signal at different level of details.
The experiments are performed on 250 audio tracks with length of 15 seconds selected from GTZAN dataset. Results show that for identifying music pieces in noisy conditions, the average of accuracy increases from 86.06 to 96.06 for the first approach where identification speed has not increased. On the other hand, average of accuracy in the second approach increase from 86.06 to 99.6 with more computational cost.