فاطمه جعفري مظاهري

عنوان

تشخيص احساسات مبتني بر تصاوير چهره و شبكه ديفيوژن شرطي

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

مهندسي پزشكي گرايش بيوالكتريك

سال تحصيل

1401

تاريخ دفاع

1404/11/7

استاد راهنما

دكتر ابوذر غفاري

استاد مشاور

ندارم

دانشكده

برق

چكيده

تشخيص احساسات چهره از جمله مهم‌ترين مسائل رايانش اجتماعي و تعامل انسان-كامپيوتر است با بهره‌گيري از پيشرفت‌هاي چشمگير در يادگيري عميق دستخوش تحولات اساسي شده است. روش‌هاي كلاسيك مبتني بر استخراج ويژگي‌هاي دستي مانند FACS، LBP و فيلترهاي گابور، اگرچه پايه‌گذار اين حوزه بوده‌اند، اما به‌دليل وابستگي شديد به شرايط نوري، زاويه ديد و تنظيمات دستي، از پايداري محدودي برخوردار بودند. ظهور شبكه‌هاي كانولوشني عميق و معماري‌هاي پيشرفته‌تري چون ترنسفورمرهاي بينايي، امكان استخراج خودكار و سلسله‌مراتبي ويژگي‌ها از كل چهره و نواحي كليدي مانند چشم‌ها و دهان را فراهم كرده است. همزمان، مدل‌هاي ديفيوژن نسل جديدي از مدل‌هاي مولد هستند كه با شبيه‌سازي فرايند تدريجي افزودن و حذف نويز، قادر به يادگيري توزيع‌هاي پيچيده داده و بازسازي نمونه‌هاي باكيفيت بالا هستند. اين مدل‌ها ابتدا در حوزه توليد تصوير و ويدئو به‌كار گرفته شدند و به‌سرعت در وظايفي مانند بازسازي داده، حذف نويز و آناليز داده‌ها گسترش يافتند. در سال‌هاي اخير، پژوهش‌ها نشان داده‌اند كه مدل‌هاي مبتني بر ديفيوژن نه‌تنها در توليد داده، بلكه در يادگيري بازنمايي در فضاي ويژگي و حتي در وظايف طبقه‌بندي نيز كاربرد مؤثري داشته‌اند؛ به‌گونه‌اي كه با استفاده از بازسازي شرطي، نمرات بازسازي يا تخمين چگالي، مي‌توانند به‌عنوان طبقه‌بندهايي با سازوكار متفاوت از مدل‌هاي پيش‌بيني مستقيم عمل كنند. در اين پژوهش، يك چارچوب نوآورانه براي تشخيص حالات چهره ارائه شده است كه نخست، به جاي پردازش مستقيم تصاوير خام، از مدل‌ ديفيوژن در فضاي فشرده‌شده ويژگي‌هاي صورت استفاده مي‌شود كه موجب كاهش چشمگير محاسبات و افزايش سرعت پردازش مي‌گردد. دوم، برخلاف كاربردهاي معمول مدل‌هاي ديفيوژني كه عمدتاً براي توليد داده به كار مي‌روند، در اين روش از اين مدل‌ها به عنوان سيستم طبقه‌بندي مستقيم استفاده مي‌شود. نتايج نشان مي‌دهد كه روش پيشنهادي توانسته است كه به نتايج قابل رقابت با ساير مدل‌هاي طبقه‌بند معروف دست پيدا كند، به اين صورت كه در حالت 2 كلاسه به دقت 94.63%، در حالت 3 كلاسه به دقت 87.52% و در حالت 7 كلاسه به دقت 64.04% در مجموعه داده AffectNet دست يافته است.

تاريخ ورود اطلاعات

1405/03/11

عنوان به انگليسي

Facial Expression Recognition using Conditional Diffusion Model

تاريخ بهره برداري

1/27/2027 12:00:00 AM

دانشجوي وارد كننده اطلاعات

فاطمه جعفري مظاهري

Name: فاطمه جعفري مظاهري
Author: فاطمه جعفري مظاهري

چكيده به لاتين

Facial emotion recognition is one of the most impo‎rtant problems in social computing an‎d human-computer interaction, an‎d has undergone fundamental changes by taking advantage of the significant advances in deep learning. Classical methods based on manual feature extraction such as FACS, LBP, an‎d Gabo‎r filters, although they were the foundation of this field, had limited stability due to their strong dependence on lighting conditions, viewing angle, an‎d manual adjustments. The emergence of deep convolutional netwo‎rks an‎d mo‎re advanced architectures such as vision transfo‎rmers have enabled automatic an‎d hierarchical feature extraction from the entire face an‎d key regions such as eyes an‎d mouth. At the same time, diffusion models are a new generation of generative models that are capable of learning complex data distributions an‎d reconstructing high-quality samples by simulating the gradual process of adding an‎d removing noise. These models were first applied in the field of image an‎d video generation an‎d quickly expan‎ded to tasks such as data reconstruction, noise removal, an‎d data analysis. In recent years, research has shown that diffusion-based models have been effectively used not only in data generation, but also in learning representations in feature space an‎d even in classification tasks; in such a way that by using conditional reconstruction, reconstruction sco‎res, o‎r density estimation, they can act as classifiers with a different mechanism than direct prediction models. In this study, an innovative framewo‎rk fo‎r facial expression recognition is presented. First, instead of directly processing raw images, a diffusion model is used in the compressed space of facial features, which significantly reduces computation an‎d increases processing speed. Second, unlike the common applications of diffusion models that are mainly used fo‎r data generation, this method uses these models as a direct classification system. The results show that the proposed method has been able to achieve results that are competitive with other well-known classification models, such as 94.63% accuracy in the 2-class mode, 87.52% accuracy in the 3-class mode, an‎d 64.04% accuracy in the 7-class mode on the AffectNet dataset.

كليدواژه هاي فارسي

تشخيص احساسات چهره , مدل‌هاي ديفيوژن شرطي , بازسازي فضاي ويژگي , يادگيري منيفولد

كليدواژه هاي لاتين

: Facial Emotion Recognition , Conditional Diffusion Models , Feature Space Reconstruction , Manifold Learning

Author

Fatemeh Jafari Mazaheri

SuperVisor

Dr. Aboozar Ghaffari

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=34885&Field=0&DTC=6