• شماره ركورد
    10264
  • عنوان
    بازشناسي گفتار سمعي - بصري با استفاده از يادگيري عميق
  • سال تحصيل
    1400
  • استاد راهنما
    دكتر ناصر مزيني
  • استاد مشاور
    -
  • چکيده
    به بازشناسي گفتار بصري لب‌خواني گفته مي‌شود كه محتواي گفتار را بر اساس مشخصات حركتي لب و بدون داشتن سيگنال صوت گوينده تشخيص مي‌دهد. اين تشخيص داراي دو كاربرد اصلي است. كاربرد اول آن، بهبود دقت سيستم تشخيص گفتار است. اهميت اين موضوع مربوط به زماني است كه سيگنال صوتي تحت تأثير نويز قرار بگيرد. كاربرد دوم آن تشخيص گفتار بدون داشتن صوت است. لب‌خواني داراي كاربردهاي فراواني است. از جمله اين كاربردها مي‌توان به كمك به ناشنوايان، بهبود امنيت تشخيص چهره، رونويسي و دوبله مجدد فيلم¬هاي صامت و حل گفتار هم‌زمان چند گوينده اشاره كرد. در اين سمينار به معرفي مفاهيم پايه از جمله شبكه‌هاي عصبي عميق مانند شبكه‌هاي عصبي كانولوشنال، شبكه‌هاي عصبي بازگشتي و ترنسفورمر مي‌پردازيم. سپس روش‌هاي سنتي و مبتني بر يادگيري عميق موجود براي لب‌خواني را بررسي مي‌كنيم. در روش‌هاي مبتني بر يادگيري عميق، معماري انواع مختلفي از شبكه‌ها را شرح مي‌دهيم و در نهايت عملكرد اين شبكه‌ها را با يك معيار ارزيابي مناسب مقايسه خواهيم كرد.
  • نام دانشجو

    ثمين حيدريان

  • تاريخ ارائه
    12/1/2021 12:00:00 AM
  • متن كامل
    73422
  • پديد آورنده

    ثمين حيدريان

  • تاريخ ورود اطلاعات
    1400/09/26
  • عنوان به انگليسي
    Deep Audio-Visual Speech Recognition
  • كليدواژه هاي فارسي
    لب‌خواني , بازشناسي گفتار سمعي - بصري , يادگيري عميق
  • كليدواژه هاي لاتين
    Lip-Reading , Audio-Visual Speech Recognition , Deep Learning