-
شماره ركورد
22744
-
پديد آورنده
مصطفي اعتمادي نيا
-
عنوان
تشخيص احساس غيرارادي از گفتار با استفاده از يادگيري عميق
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
سيستم هاي الكترونيك ديجيتال
-
سال تحصيل
98-99
-
تاريخ دفاع
1399/07/29
-
استاد راهنما
دكتر ستار ميرزاكوچكي
-
دانشكده
برق
-
چكيده
تشخيص احساس از گفتار (SER) يكي از عناصر مهم رابط¬هاي انسان - رايانه (CHI) به شمار مي¬رود. ماشين¬هايي كه توانايي درك احساس را دارند، مي¬توانند نقش مهمي در تجارت و سلامت الكترونيك ايفا كنند. از دو دهه¬ي گذشته كه صحبت از تشخيص احساس از گفتار به ميان آمده، پژوهشگران زيادي سعي در درك اين پديده از طريق استخراج ويژگي¬هاي مختلف صوتي و زباني گفتار داشته¬اند. اما اين ويژگي¬ها تا حد محدودي مؤثر واقع مي¬شوند. زيرا اين ويژگي¬ها نمايش كاملي از احساس شكلگرفته در گفتار نيستند. باتوجهبه كاربرد يادگيري عميق در استخراج ويژگي¬هاي سطح بالا و موفقيت آن در حوزه¬هايي نظير بينايي ماشين ، پردازش زبان طبيعي ، تشخيص گفتار ، موضوع تشخيص احساس از گفتار با استفاده از يادگيري عميق موردتوجه بيشتري قرار گرفته است. البته چالش¬هاي بيشتر و جديدي را نيز پيشروي محققان قرار داده است. احساسات موجود در گفتار ممكن است القا شده يا بازي شده باشند و يا بهصورت غيرارادي و واقعي (مانند آن چه در زندگي رخ مي¬دهد) به وجود آيند. اين پژوهش به بررسي عملكرد مدل¬هاي يادگيري عميق در دسته¬بندي مجموعه دادههاي احساس واقعي و غيرارادي مي¬پردازد.
در اين پژوهش، ويژگي¬هاي سطح بالا با بهكارگيري روش¬هاي يادگيري عميق از طيف خام و مجموعه ويژگيهاي دست¬ساز شناخته¬شده استخراج شده¬اند. براي جلوگيري از بيش¬برازشي كه توسط ابعاد زياد مجموعه ويژگيها ممكن است ايجاد شود، از روش انتخاب ويژگي كمك گرفته شده و تابع زياني جديد براي حل مشكل عدم تعادل مجموعه دادهي BAUM-1s معرفي شده است. در نهايت، با معرفي يك شبكه¬ي عصبي عميق Stacking براي استخراج و دسته¬بندي ويژگي¬هاي سطح بالا، دقت مربوط به دسته¬بندي احساسات دو مورد از پرچالش¬ترين مجموعه دادههاي گفتار احساسي غيرارادي با حدود %2 بهبود نسبت به آخرين كار انجام شده، %46.26 براي BAUM-1s و %37.63 براي AFEW5.0 به دست آمده است
-
تاريخ ورود اطلاعات
1399/08/11
-
عنوان به انگليسي
Spontaneous Speech Emotion Recognition using Deep Learning
-
تاريخ بهره برداري
10/20/2020 12:00:00 AM
-
دانشجوي وارد كننده اطلاعات
مصطفي اعتمادي نيا
-
چكيده به لاتين
Speech Emotion Recognition (SER) systems have a vital role in future Computer-Human Interfaces (CHI). Machines capable of understanding human emotions will certainly have a major role in business and e-commerce. It has been two decades since the very first affective computing researches started talking about recognizing emotions from speech. Many researchers tried to address this phenomenon by using linguistic and acoustic features. However, they could only have a limited effect. Because they are not a perfect representation of what is shaped as an emotional state.
Due to many successful applications of deep learning in fields of computer vision, natural language processing and speech recognition in extracting high-level features from a natural phenomenon and raw input data, using deep leaning techniques in SER has recently attracted so many attentions. Even though, it has put new challenges for researchers to overcome.
Speech emotions can either be elicited by watching video clips in a guided and pre-scripted scenario, or be acted by professional and semi-professional actors. The last and most realistic way of gathering a dataset is by using spontaneous emotions in everyday conversations in call centers or out in the wild. Spontaneous emotions seem to be more challenging and difficult to distinguish than aforementioned cases.
In this research, modern deep learning techniques have been utilized to extract high-level features from raw spectrograms and well-known handcrafted feature sets. A feature selection technique is used to address possibility of overfitting caused by the high dimensions of the handcrafted features. A new loss function is introduced to handle dataset skewness (imbalanced dataset problem). By introducing a new stacking deep neural network feature extractor and classifier, this research could achieve an approximately 2% improvement of accuracy in two challenging spontaneous emotional speech datasets, i.e., the BAUM-1s and AFEW5.0 databases, outperforming the state-of-the-art results.
-
كليدواژه هاي فارسي
تشخيص احساس از گفتار , تشخيص احساس غيرارادي از گفتار , يادگيري عميق , يادگيري نمايش
-
كليدواژه هاي لاتين
Spontaneous Speech Emotion Recognition , Speech Emotion Recognition , Deep Learning , Reresentation Learning
-
لينک به اين مدرک :