• شماره ركورد
    27652
  • پديد آورنده

    رضا ابراهيمي

  • عنوان
    داده‌افزايي با استفاده از روش‌هاي مبتني بر انتقال يادگيري براي بازشناسي احساسات در گفتار
  • مقطع تحصيلي
    كارشناسي ارشد
  • رشته تحصيلي
    مهندسي كامپيوتر – گرايش هوش‌مصنوعي
  • سال تحصيل
    1397
  • تاريخ دفاع
    1400/03/12
  • استاد راهنما
    دكتر احمد اكبري
  • استاد مشاور
    دكتر بابك ناصر شريف
  • دانشكده
    دانشكده مهندسي كامپيوتر
  • چكيده
    بازشناسي احساسات در گفتار يكي از عوامل تأثيرگذار در افزايش دقت و كارايي بازشناسي گفتار است. بازشناسي احساسات در گفتار، به دنبال مشخص كردن احساس يك قطعه صوتي مي‌باشد. حالت احساسي ادا نمودن جمله، مستقل از معناي نوشتاري آن، در برداشت معنايي از آن جمله تأثير گذار است. حال آنكه محدوديت داده آموزشي براي توليد و آموزش مدل از چالش‌هاي كليدي حوزه بازشناسي احساسات در گفتار مي‌باشد. به دليل محدوديت منابع آموزشي و با در نظر گرفتن هزينه‌بر بودن توليد داده‌هاي آموزشي جديد، روش‌هاي داده‌افزايي براي توليد دادگان جديد به كمك دادگان موجود و انتقال يادگيري از مدل‌هاي مشابه، به عنوان روش‌هاي مؤثر در اين زمينه‌ مطرح هستند. به منظور بهبود دقت، در اين پايان‌نامه تركيب اين دو روش براي كمك به حل معضل محدوديت داده، ارائه شده است. به منظور انتقال يادگيري، از دو مجموعه دادگان از دو زبان مختلف انگليسي (مجموعه دادگان IEMOCAP) كه منابع غني‌تري دارد و آلماني (مجموعه دادگان EmoDB) كه منابع محدود‌تري دارد، استفاده شده است. هدف از انتخاب دو زبان مختلف، (1) انتقال يادگيري بين دو مجموعه‌ي شبيه در راه‌حل مسئله و به ظاهر متفاوت و (2) بررسي عملكرد روش داده‌افزايي به منظور بهبود نتايج آلماني به دليل وجود منابع بسيار محدود است. در روش پيشنهادي ابتدا انتقال يادگيري از زبان غني‌تر به زبان محدود انجام شده و سپس داده‌افزايي به فرايند انتقال يادگيري اضافه مي‌شود. در مرحله‌ داده‌افزايي، بهترين نتايج داده‌افزايي با توجه به مدل زبان محدود مستقل از انتقال يادگيري، به‌دست آمد كه دقت نتايج آن ح حدود 10٪ بهبود را در برابر نتايج بهترين روش‌هاي قبلي نشان مي‌دهد. علاوه بر اين با استفاده از روش تركيبي و با بهره‌گيري از 20٪ دادگان مجموعه محدود، نتايج تحقيقات قبلي به‌دست آمد.
  • تاريخ ورود اطلاعات
    1401/10/14
  • عنوان به انگليسي
    Transfer learning-based Data augmentation for speech emotional recognition
  • تاريخ بهره برداري
    9/11/2022 12:00:00 AM
  • دانشجوي وارد كننده اطلاعات

    رضا ابراهيمي

  • چكيده به لاتين
    Speech emotion recognition (SER) is one of the most challenging tasks in speech recognition. SER aims to determine the emotion of a part of a speech signal which can be useful for an understanding of the speech by computers and machines. Many proposed methods have been proposed to address the lack of data problem in SER in which transfer learning or data augmentation have been used to overcome the problem. In this thesis, we use both transfer learning and data augmentation to improve the SER rate for small datasets. In this thesis, a compatible source and target domain have been selected. We use the English dataset IEMOCAP as our source and the German dataset EmoDB as our target which is a small dataset. Our goal is to transfer learned knowledge from the English domain to the German domain to improve the SER rate in the German target Language. We propose to have both knowledge transfer and data augmentation in the target domain. Results show that SER accuracy has been improved by about 10% while we use only data augmentation. Using both data augmentation and transfer learning and also using 20% of EMODB dataset, the SER accuracy is about 70%.
  • كليدواژه هاي فارسي
    انتقال يادگيري , داده‌افزايي , بازشناسي احساسات در گفتار
  • كليدواژه هاي لاتين
    Transfer learning , Data augmentation , Speech emotional recognition (SER)
  • Author
    Reza Ebrahimi
  • SuperVisor
    Dr. Ahmad Akbari