شماره ركورد
14372
شماره راهنما(اين فيلد مربوط به كارشناس ميباشد لطفا آن را خالي بگذاريد)
14372
پديد آورنده
مهران زماني
عنوان
تشخيص گفتار از موسيقي با استفاده از ردهبندهاي مولد و متمايزساز
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
هوش مصنوعي
سال تحصيل
اسفند ماه 1393
تاريخ دفاع
اسفند ماه 1393
استاد راهنما
دكتر احمد اكبري
استاد مشاور
دكتربابك ناصرشريف
دانشكده
كامپيوتر
چكيده
چكيده
مساله تشخيص گفتار از موسيقي، يكي از مسائل مهم و ضروري براي بسياري از كاربردها نظير شناسايي خودكار گوينده، بازشناسي گفتار، تشخيص سبك موسيقيو شاخص¬گذاري مبتني بر محتوا است. به اين ترتيب و با توجه به اهميت و كاربرد اين سيستم، دستيابي به دقت¬هاي بالا در تشخيص گفتار از موسيقي مورد توجه محققين قرار گرفته است.يك سيستم تشخيص گفتار از موسيقي، يك سيستم بازشناسي الگو با دو كلاس است كه شامل دو بخش اصلي استخراج ويژگي و ردهبندي است. ردهبندهاي متفاوتي در دو گروه مولد و متمايزساز براي حل اين مساله مورد استفاده قرار گرفتهاند كه در گروه مولد ميتوان به مدل مخلوط گاوسي و در گروه متمايزساز ميتوان به ماشين بردار پشتيبان و شبكه عصبي اشاره نمود. ردهبندهاي مولد بر اساس فرض يك توزيع آماري براي دادگان ورودي عمل ميكنند، در حاليكه ردهبندهاي متمايزساز به اين توزيع توجهي نداشته و تنها به دنبال تعيين مرزهايي براي جداسازي دادهها هستند.در پايان نامه حاضر، پيشنهاد ميشود كه براي ردهبندي از شبكه باور عميق استفاده شود كه تركيبي از روشهاي مولد و متمايزساز است. به علاوه تاثير ويژگيهاي مختلف نيز در ردهبندي مورد بررسي قرار گرفته است.
با بررسي دقت¬هاي هر ردهبند با ويژگيهاي استخراج شده از قابهاي كوتاه مدت و بلند مدت، اين نتيجه حاصل شد كه كه اطلاعات حاصل از قابهاي كوتاه به دقت ردهبندي بالاتري منجر ميشوند. به علاوه اين دقت نشان ميدهد كه بهترين بردار ويژگي¬براي تشخيص گفتار شامل دوازده ضرايب مل كپستروم، مشتقات اول و دوم آنها، شار طيف، رول طيف، مركز طيف و نرخ گذر از صفر ميشود.
براي ارزيابي شبكه باور عميق و مجموعه ويژگيهاي مذكور، ويژگيهاي استخراجي از ده قاب (43 ويژگي از هرقاب و مجموعا 430 ويژگي) به عنوان ورودي به شبكه عصبي داده شدهاند تا رفتار طولاني مدت نيز در نظر گرفته شود. به منظور ارزيابي روش پيشنهادي، از مجموعه دادههاي GTZAN و TIMIT استفاده شده و نتايج با رده¬بندهاي مدل مخلوط گوسي،شبكه عصبي پرسپترون چند لايه و ماشين بردار پشتيبان (با ويژگيهاي پيشنهادي ) مقايسه شده است. دقت بازشناسي شبكه باور عميق با استفاده از مجموعه ويژگيهاي بهينه و معماري سه لايه مخفي (2000-600-600) 98% در سطح قاب است كه در مقايسه با مدل مخلوط گوسي، بهبودي قابل ملاحظه 12 درصدي داشته است.
واژههايكليدي:تشخيص گفتار از موسيقي (SMD)، ويژگيهاي طيفي، ويژگيهاي ملكپستروم، شبكه باور عميق، مدل مخلوط گوسي.