-
شماره ركورد
27652
-
پديد آورنده
رضا ابراهيمي
-
عنوان
دادهافزايي با استفاده از روشهاي مبتني بر انتقال يادگيري براي بازشناسي احساسات در گفتار
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
مهندسي كامپيوتر – گرايش هوشمصنوعي
-
سال تحصيل
1397
-
تاريخ دفاع
1400/03/12
-
استاد راهنما
دكتر احمد اكبري
-
استاد مشاور
دكتر بابك ناصر شريف
-
دانشكده
دانشكده مهندسي كامپيوتر
-
چكيده
بازشناسي احساسات در گفتار يكي از عوامل تأثيرگذار در افزايش دقت و كارايي بازشناسي گفتار است. بازشناسي احساسات در گفتار، به دنبال مشخص كردن احساس يك قطعه صوتي ميباشد. حالت احساسي ادا نمودن جمله، مستقل از معناي نوشتاري آن، در برداشت معنايي از آن جمله تأثير گذار است. حال آنكه محدوديت داده آموزشي براي توليد و آموزش مدل از چالشهاي كليدي حوزه بازشناسي احساسات در گفتار ميباشد. به دليل محدوديت منابع آموزشي و با در نظر گرفتن هزينهبر بودن توليد دادههاي آموزشي جديد، روشهاي دادهافزايي براي توليد دادگان جديد به كمك دادگان موجود و انتقال يادگيري از مدلهاي مشابه، به عنوان روشهاي مؤثر در اين زمينه مطرح هستند. به منظور بهبود دقت، در اين پاياننامه تركيب اين دو روش براي كمك به حل معضل محدوديت داده، ارائه شده است.
به منظور انتقال يادگيري، از دو مجموعه دادگان از دو زبان مختلف انگليسي (مجموعه دادگان IEMOCAP) كه منابع غنيتري دارد و آلماني (مجموعه دادگان EmoDB) كه منابع محدودتري دارد، استفاده شده است. هدف از انتخاب دو زبان مختلف، (1) انتقال يادگيري بين دو مجموعهي شبيه در راهحل مسئله و به ظاهر متفاوت و (2) بررسي عملكرد روش دادهافزايي به منظور بهبود نتايج آلماني به دليل وجود منابع بسيار محدود است. در روش پيشنهادي ابتدا انتقال يادگيري از زبان غنيتر به زبان محدود انجام شده و سپس دادهافزايي به فرايند انتقال يادگيري اضافه ميشود. در مرحله دادهافزايي، بهترين نتايج دادهافزايي با توجه به مدل زبان محدود مستقل از انتقال يادگيري، بهدست آمد كه دقت نتايج آن ح حدود 10٪ بهبود را در برابر نتايج بهترين روشهاي قبلي نشان ميدهد. علاوه بر اين با استفاده از روش تركيبي و با بهرهگيري از 20٪ دادگان مجموعه محدود، نتايج تحقيقات قبلي بهدست آمد.
-
تاريخ ورود اطلاعات
1401/10/14
-
عنوان به انگليسي
Transfer learning-based Data augmentation for speech emotional recognition
-
تاريخ بهره برداري
9/11/2022 12:00:00 AM
-
دانشجوي وارد كننده اطلاعات
رضا ابراهيمي
-
چكيده به لاتين
Speech emotion recognition (SER) is one of the most challenging tasks in speech recognition. SER aims to determine the emotion of a part of a speech signal which can be useful for an understanding of the speech by computers and machines. Many proposed methods have been proposed to address the lack of data problem in SER in which transfer learning or data augmentation have been used to overcome the problem. In this thesis, we use both transfer learning and data augmentation to improve the SER rate for small datasets.
In this thesis, a compatible source and target domain have been selected. We use the English dataset IEMOCAP as our source and the German dataset EmoDB as our target which is a small dataset. Our goal is to transfer learned knowledge from the English domain to the German domain to improve the SER rate in the German target Language. We propose to have both knowledge transfer and data augmentation in the target domain. Results show that SER accuracy has been improved by about 10% while we use only data augmentation. Using both data augmentation and transfer learning and also using 20% of EMODB dataset, the SER accuracy is about 70%.
-
كليدواژه هاي فارسي
انتقال يادگيري , دادهافزايي , بازشناسي احساسات در گفتار
-
كليدواژه هاي لاتين
Transfer learning , Data augmentation , Speech emotional recognition (SER)
-
Author
Reza Ebrahimi
-
SuperVisor
Dr. Ahmad Akbari
-
لينک به اين مدرک :