مهران زماني

عنوان

تشخيص گفتار از موسيقي با استفاده از رده‌‌بندهاي مولد و متمايزساز

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

هوش مصنوعي

سال تحصيل

اسفند ماه 1393

تاريخ دفاع

اسفند ماه 1393

استاد راهنما

دكتر احمد اكبري

استاد مشاور

دكتربابك ناصرشريف

دانشكده

كامپيوتر

چكيده

چكيده مساله تشخيص گفتار از موسيقي، يكي از مسائل مهم و ضروري براي بسياري از كاربردها نظير شناسايي خودكار گوينده، بازشناسي گفتار، تشخيص سبك موسيقيو شاخص¬گذاري مبتني بر محتوا است. به اين ترتيب و با توجه به اهميت و كاربرد اين سيستم، دستيابي به دقت¬هاي بالا در تشخيص گفتار از موسيقي مورد توجه محققين قرار گرفته است.يك سيستم تشخيص گفتار از موسيقي، يك سيستم بازشناسي الگو با دو كلاس است كه شامل دو بخش اصلي استخراج ويژگي و رده‌بندي است. رده‌بندهاي متفاوتي در دو گروه مولد و متمايزساز براي حل اين مساله مورد استفاده قرار گرفته‌اند كه در گروه مولد مي‌توان به مدل مخلوط گاوسي و در گروه متمايزساز مي‌توان به ماشين بردار پشتيبان و شبكه عصبي اشاره نمود. رده‌بندهاي مولد بر اساس فرض يك توزيع آماري براي دادگان ورودي عمل مي‌كنند، در حالي‌كه رده‌بندهاي متمايزساز به اين توزيع توجهي نداشته و تنها به دنبال تعيين مرزهايي براي جداسازي داده‌ها هستند.در پايان نامه حاضر، پيشنهاد مي‌شود كه براي رده‌بندي از شبكه باور عميق استفاده شود كه تركيبي از روشهاي مولد و متمايزساز است. به علاوه تاثير ويژگي‌هاي مختلف نيز در رده‌بندي مورد بررسي قرار گرفته است. با بررسي دقت¬هاي هر رده‌بند با ويژگي‌هاي استخراج شده از قاب‌هاي كوتاه مدت و بلند مدت، اين نتيجه حاصل شد كه كه اطلاعات حاصل از قاب‌هاي كوتاه به دقت رده‌بندي بالاتري منجر مي‌شوند. به علاوه اين دقت نشان مي‌دهد كه بهترين بردار ويژگي¬براي تشخيص گفتار شامل دوازده ضرايب مل كپستروم، مشتقات اول و دوم آنها، شار طيف، رول طيف، مركز طيف و نرخ گذر از صفر مي‌شود. براي ارزيابي شبكه باور عميق و مجموعه ويژگي‌هاي مذكور، ويژگي‌هاي استخراجي از ده قاب (43 ويژگي از هرقاب و مجموعا 430 ويژگي) به عنوان ورودي به شبكه عصبي داده شده‌اند تا رفتار طولاني مدت نيز در نظر گرفته شود. به منظور ارزيابي روش پيشنهادي، از مجموعه داده‌‌هاي GTZAN و TIMIT استفاده شده و نتايج با رده¬‌بندهاي مدل مخلوط گوسي،شبكه عصبي پرسپترون چند لايه و ماشين بردار پشتيبان (با ويژگي‌هاي پيشنهادي ) مقايسه شده است. دقت بازشناسي شبكه باور عميق با استفاده از مجموعه ويژگي‌‌هاي بهينه و معماري سه لايه مخفي (2000-600-600) 98% در سطح قاب است كه در مقايسه با مدل مخلوط گوسي، بهبودي قابل ملاحظه 12 درصدي داشته است. واژه‌هايكليدي:تشخيص گفتار از موسيقي (SMD)، ويژگي‌‌هاي طيفي، ويژگي‌‌هاي ملكپستروم، شبكه باور عميق، مدل مخلوط گوسي.

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=14372&Field=0&DTC=6