شماره ركورد
34885
پديد آورنده
فاطمه جعفري مظاهري
عنوان
تشخيص احساسات مبتني بر تصاوير چهره و شبكه ديفيوژن شرطي
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
مهندسي پزشكي گرايش بيوالكتريك
سال تحصيل
1401
تاريخ دفاع
1404/11/7
استاد راهنما
دكتر ابوذر غفاري
استاد مشاور
ندارم
دانشكده
برق
چكيده
تشخيص احساسات چهره از جمله مهمترين مسائل رايانش اجتماعي و تعامل انسان-كامپيوتر است با بهرهگيري از پيشرفتهاي چشمگير در يادگيري عميق دستخوش تحولات اساسي شده است. روشهاي كلاسيك مبتني بر استخراج ويژگيهاي دستي مانند FACS، LBP و فيلترهاي گابور، اگرچه پايهگذار اين حوزه بودهاند، اما بهدليل وابستگي شديد به شرايط نوري، زاويه ديد و تنظيمات دستي، از پايداري محدودي برخوردار بودند. ظهور شبكههاي كانولوشني عميق و معماريهاي پيشرفتهتري چون ترنسفورمرهاي بينايي، امكان استخراج خودكار و سلسلهمراتبي ويژگيها از كل چهره و نواحي كليدي مانند چشمها و دهان را فراهم كرده است.
همزمان، مدلهاي ديفيوژن نسل جديدي از مدلهاي مولد هستند كه با شبيهسازي فرايند تدريجي افزودن و حذف نويز، قادر به يادگيري توزيعهاي پيچيده داده و بازسازي نمونههاي باكيفيت بالا هستند. اين مدلها ابتدا در حوزه توليد تصوير و ويدئو بهكار گرفته شدند و بهسرعت در وظايفي مانند بازسازي داده، حذف نويز و آناليز دادهها گسترش يافتند. در سالهاي اخير، پژوهشها نشان دادهاند كه مدلهاي مبتني بر ديفيوژن نهتنها در توليد داده، بلكه در يادگيري بازنمايي در فضاي ويژگي و حتي در وظايف طبقهبندي نيز كاربرد مؤثري داشتهاند؛ بهگونهاي كه با استفاده از بازسازي شرطي، نمرات بازسازي يا تخمين چگالي، ميتوانند بهعنوان طبقهبندهايي با سازوكار متفاوت از مدلهاي پيشبيني مستقيم عمل كنند.
در اين پژوهش، يك چارچوب نوآورانه براي تشخيص حالات چهره ارائه شده است كه نخست، به جاي پردازش مستقيم تصاوير خام، از مدل ديفيوژن در فضاي فشردهشده ويژگيهاي صورت استفاده ميشود كه موجب كاهش چشمگير محاسبات و افزايش سرعت پردازش ميگردد. دوم، برخلاف كاربردهاي معمول مدلهاي ديفيوژني كه عمدتاً براي توليد داده به كار ميروند، در اين روش از اين مدلها به عنوان سيستم طبقهبندي مستقيم استفاده ميشود. نتايج نشان ميدهد كه روش پيشنهادي توانسته است كه به نتايج قابل رقابت با ساير مدلهاي طبقهبند معروف دست پيدا كند، به اين صورت كه در حالت 2 كلاسه به دقت 94.63%، در حالت 3 كلاسه به دقت 87.52% و در حالت 7 كلاسه به دقت 64.04% در مجموعه داده AffectNet دست يافته است.
تاريخ ورود اطلاعات
1405/03/11
عنوان به انگليسي
Facial Expression Recognition using Conditional Diffusion Model
تاريخ بهره برداري
1/27/2027 12:00:00 AM
دانشجوي وارد كننده اطلاعات
فاطمه جعفري مظاهري
چكيده به لاتين
Facial emotion recognition is one of the most important problems in social computing and human-computer interaction, and has undergone fundamental changes by taking advantage of the significant advances in deep learning. Classical methods based on manual feature extraction such as FACS, LBP, and Gabor filters, although they were the foundation of this field, had limited stability due to their strong dependence on lighting conditions, viewing angle, and manual adjustments. The emergence of deep convolutional networks and more advanced architectures such as vision transformers have enabled automatic and hierarchical feature extraction from the entire face and key regions such as eyes and mouth.
At the same time, diffusion models are a new generation of generative models that are capable of learning complex data distributions and reconstructing high-quality samples by simulating the gradual process of adding and removing noise. These models were first applied in the field of image and video generation and quickly expanded to tasks such as data reconstruction, noise removal, and data analysis. In recent years, research has shown that diffusion-based models have been effectively used not only in data generation, but also in learning representations in feature space and even in classification tasks; in such a way that by using conditional reconstruction, reconstruction scores, or density estimation, they can act as classifiers with a different mechanism than direct prediction models.
In this study, an innovative framework for facial expression recognition is presented. First, instead of directly processing raw images, a diffusion model is used in the compressed space of facial features, which significantly reduces computation and increases processing speed. Second, unlike the common applications of diffusion models that are mainly used for data generation, this method uses these models as a direct classification system. The results show that the proposed method has been able to achieve results that are competitive with other well-known classification models, such as 94.63% accuracy in the 2-class mode, 87.52% accuracy in the 3-class mode, and 64.04% accuracy in the 7-class mode on the AffectNet dataset.
كليدواژه هاي فارسي
تشخيص احساسات چهره , مدلهاي ديفيوژن شرطي , بازسازي فضاي ويژگي , يادگيري منيفولد
كليدواژه هاي لاتين
: Facial Emotion Recognition , Conditional Diffusion Models , Feature Space Reconstruction , Manifold Learning
Author
Fatemeh Jafari Mazaheri
SuperVisor
Dr. Aboozar Ghaffari