شماره ركورد
15305
شماره راهنما(اين فيلد مربوط به كارشناس ميباشد لطفا آن را خالي بگذاريد)
15305
پديد آورنده
فائزه بنياردلان
عنوان
بهبود ويژگيهاي گفتار نويزي با استفاده از شبكههاي عصبي گلوگاه
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
كامپيوتر گرايش هوش مصنوعي
سال تحصيل
آبان 1394
تاريخ دفاع
آبان 1394
استاد راهنما
دكتر احمد اكبري
استاد مشاور
دكتر بابك ناصر شريف
چكيده
چكيده
بحث مقاوم سازي سيستمهاي بازشناسي گفتار در برابر نويزهاي محيطي به ويژه نويزهاي ناايستان همواره مورد توجه بوده است. يكي از روشهاي موثر در اين زمينه، توجه به تاثيرات نويز در سطح زيرباندهاي فركانسي و پردازش در سطح زيرباندي است. از سوي ديگر استفاده از شبكههاي عصبي عميق در سطح مدلسازي آكوستيك و همينطور استخراج و تبديل ويژگي براي بازشناسي گفتار نيز در سالهاي اخير مورد توجه قرار گرفته است. از اين رو، در پاياننامهي حاضر پيشنهاد ميشود تا از يك شبكهي عصبي خودرمزگذار عميق كاهندهي نويز با تابع هدف وزندار براي حذف نويز از سطح زيرباندهاي مل استفاده شود كه در اين راستا استفاده از دو روند آموزش متفاوت براي شبكه مد نظر قرار گرفته شده است. در اين شبكه از يك تابع خطاي وزندار استفاده شده است تا به نحوهي تأثير نويز بر بازههاي مختلف فركانسي بيشتر توجه شود و اهميت زيرباندهاي مختلف فركانسي يكسان در نظر گرفته نشود. بدين ترتيب زيرباندهايي كه نويز بيشتري دارند با اهميت كمتر و زيرباندهايي با نويز كمتر داراي اهميت بيشتري در روند آموزش شبكه در نظر گرفته ميشوند و شبكه حذف نويز را هوشمندانه انجام ميدهد. علاوه بر اين، از يك شبكهي عصبي گلوگاه براي استخراج ويژگيهاي گلوگاه در سطح زيرباندهاي مل استفاده شده است تا با الحاق اين ويژگيهاي گلوگاهي به ويژگيهاي نويزي اوليه يك بردار ويژگي حاوي اطلاعات مفيد ايجاد شود و در ادامه نيز با الحاق ويژگيهاي گلوگاه به ويژگيهاي حذف نويز شدهي حاصل از شبكهي خودرمزگذار كاهندهي نويز، يك بردار ويژگي مقاوم نسبت به نويز ايجاد شود. وروديهاي شبكه عصبي عميق خود رمزگذار در هر دو حالت مذكور شامل چندين قاب متوالي گفتار است، در نتيجه شبكه عصبي عميق رفتار درازمدت نويز در زيرباندهاي مل در طول زمان را نيز ميآموزد كه منجر به حذف بهتر نويز و همچنين استخراج ويژگيهاي گلوگاهي مطلوبتر ميشود. آزمايشهاي انجام شده روي دادگان Aurora2 نشان دهنده كارآيي روش پيشنهادي است در جايي كه به طور ميانگين حدود 30٪ تا 40٪ بهبود نسبت به ويژگيهاي نويزي اوليه (ويژگيهاي پايه) حاصل شده است.
واژههاي كليدي: شبكهي خودرمزگذار عميق، شبكهي خودرمزگذار كاهندهي نويز، ويژگيهاي گلوگاهي، آموزش سازگار با نويز