-
شماره ركورد
10264
-
عنوان
بازشناسي گفتار سمعي - بصري با استفاده از يادگيري عميق
-
سال تحصيل
1400
-
استاد راهنما
دكتر ناصر مزيني
-
استاد مشاور
-
-
چکيده
به بازشناسي گفتار بصري لبخواني گفته ميشود كه محتواي گفتار را بر اساس مشخصات حركتي لب و بدون داشتن سيگنال صوت گوينده تشخيص ميدهد. اين تشخيص داراي دو كاربرد اصلي است. كاربرد اول آن، بهبود دقت سيستم تشخيص گفتار است. اهميت اين موضوع مربوط به زماني است كه سيگنال صوتي تحت تأثير نويز قرار بگيرد. كاربرد دوم آن تشخيص گفتار بدون داشتن صوت است. لبخواني داراي كاربردهاي فراواني است. از جمله اين كاربردها ميتوان به كمك به ناشنوايان، بهبود امنيت تشخيص چهره، رونويسي و دوبله مجدد فيلم¬هاي صامت و حل گفتار همزمان چند گوينده اشاره كرد.
در اين سمينار به معرفي مفاهيم پايه از جمله شبكههاي عصبي عميق مانند شبكههاي عصبي كانولوشنال، شبكههاي عصبي بازگشتي و ترنسفورمر ميپردازيم. سپس روشهاي سنتي و مبتني بر يادگيري عميق موجود براي لبخواني را بررسي ميكنيم. در روشهاي مبتني بر يادگيري عميق، معماري انواع مختلفي از شبكهها را شرح ميدهيم و در نهايت عملكرد اين شبكهها را با يك معيار ارزيابي مناسب مقايسه خواهيم كرد.
-
نام دانشجو
ثمين حيدريان
-
تاريخ ارائه
12/1/2021 12:00:00 AM
-
متن كامل
73422
-
پديد آورنده
ثمين حيدريان
-
تاريخ ورود اطلاعات
1400/09/26
-
عنوان به انگليسي
Deep Audio-Visual Speech Recognition
-
كليدواژه هاي فارسي
لبخواني , بازشناسي گفتار سمعي - بصري , يادگيري عميق
-
كليدواژه هاي لاتين
Lip-Reading , Audio-Visual Speech Recognition , Deep Learning
-
لينک به اين مدرک :