-
شماره ركورد
14372
-
شماره راهنما(اين فيلد مربوط به كارشناس ميباشد لطفا آن را خالي بگذاريد)
14372
-
پديد آورنده
مهران زماني
-
عنوان
تشخيص گفتار از موسيقي با استفاده از ردهبندهاي مولد و متمايزساز
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
هوش مصنوعي
-
سال تحصيل
اسفند ماه 1393
-
تاريخ دفاع
اسفند ماه 1393
-
استاد راهنما
دكتر احمد اكبري
-
استاد مشاور
دكتربابك ناصرشريف
-
دانشكده
كامپيوتر
-
چكيده
چكيده
مساله تشخيص گفتار از موسيقي، يكي از مسائل مهم و ضروري براي بسياري از كاربردها نظير شناسايي خودكار گوينده، بازشناسي گفتار، تشخيص سبك موسيقيو شاخص¬گذاري مبتني بر محتوا است. به اين ترتيب و با توجه به اهميت و كاربرد اين سيستم، دستيابي به دقت¬هاي بالا در تشخيص گفتار از موسيقي مورد توجه محققين قرار گرفته است.يك سيستم تشخيص گفتار از موسيقي، يك سيستم بازشناسي الگو با دو كلاس است كه شامل دو بخش اصلي استخراج ويژگي و ردهبندي است. ردهبندهاي متفاوتي در دو گروه مولد و متمايزساز براي حل اين مساله مورد استفاده قرار گرفتهاند كه در گروه مولد ميتوان به مدل مخلوط گاوسي و در گروه متمايزساز ميتوان به ماشين بردار پشتيبان و شبكه عصبي اشاره نمود. ردهبندهاي مولد بر اساس فرض يك توزيع آماري براي دادگان ورودي عمل ميكنند، در حاليكه ردهبندهاي متمايزساز به اين توزيع توجهي نداشته و تنها به دنبال تعيين مرزهايي براي جداسازي دادهها هستند.در پايان نامه حاضر، پيشنهاد ميشود كه براي ردهبندي از شبكه باور عميق استفاده شود كه تركيبي از روشهاي مولد و متمايزساز است. به علاوه تاثير ويژگيهاي مختلف نيز در ردهبندي مورد بررسي قرار گرفته است.
با بررسي دقت¬هاي هر ردهبند با ويژگيهاي استخراج شده از قابهاي كوتاه مدت و بلند مدت، اين نتيجه حاصل شد كه كه اطلاعات حاصل از قابهاي كوتاه به دقت ردهبندي بالاتري منجر ميشوند. به علاوه اين دقت نشان ميدهد كه بهترين بردار ويژگي¬براي تشخيص گفتار شامل دوازده ضرايب مل كپستروم، مشتقات اول و دوم آنها، شار طيف، رول طيف، مركز طيف و نرخ گذر از صفر ميشود.
براي ارزيابي شبكه باور عميق و مجموعه ويژگيهاي مذكور، ويژگيهاي استخراجي از ده قاب (43 ويژگي از هرقاب و مجموعا 430 ويژگي) به عنوان ورودي به شبكه عصبي داده شدهاند تا رفتار طولاني مدت نيز در نظر گرفته شود. به منظور ارزيابي روش پيشنهادي، از مجموعه دادههاي GTZAN و TIMIT استفاده شده و نتايج با رده¬بندهاي مدل مخلوط گوسي،شبكه عصبي پرسپترون چند لايه و ماشين بردار پشتيبان (با ويژگيهاي پيشنهادي ) مقايسه شده است. دقت بازشناسي شبكه باور عميق با استفاده از مجموعه ويژگيهاي بهينه و معماري سه لايه مخفي (2000-600-600) 98% در سطح قاب است كه در مقايسه با مدل مخلوط گوسي، بهبودي قابل ملاحظه 12 درصدي داشته است.
واژههايكليدي:تشخيص گفتار از موسيقي (SMD)، ويژگيهاي طيفي، ويژگيهاي ملكپستروم، شبكه باور عميق، مدل مخلوط گوسي.
-
لينک به اين مدرک :