حوريه سبزواري

عنوان

پرسش و پاسخ و دستەبندي تصويري مجموعه دادگان داراي توهم بصري توسط مدل هاي چندوجهي

مقطع تحصيلي

كارشناسي

رشته تحصيلي

مهندسي كامپيوتر

سال فارغ التحصيلي

1403

استاد راهنما

دكتر صالح اعتمادي

دانشجوي وارد كننده اطلاعات

حوريه سبزواري

Name: حوريه سبزواري
Author: حوريه سبزواري

تاريخ ورود اطلاعات

1403/04/18

دانشكده

مهندسي كامپيوتر

عنوان به انگليسي

Illusory VQA: Benchmarking and Enhancing Multimodal Models on Visual Illusions

چكيده

پرسش و پاسخ تصويري يكي از چالش‌هاي چندرشتەاي موردتوجه در هوش مصنوعي در سال‌هاي اخير به شمار مي‌رود كه براي حل آن نيازمند مدل‌هايي چندوجهي است كه قادر به استخراج مفاهيم از يك تصوير و تركيب آن با مفاهيم زباني باشد. با اين حال، مجموعه دادەهاي پرسش و پاسخ تصويري موجود اغلب پيچيدگي‌ها و چالش هايي كه توسط توهمات بصري موجود در تصوير ايجاد مي‌شوند را ناديده مي‌گيرند. در اين پروژه، ما يك وظيفۀ جديد به نام VQA Illusory را همراه با 4 مجموعۀ دادۀ تخصصي معرفي مي‌كنيم:IllusionMNIST، IllusionFashionMNIST، IllusionAnimals و IllusionChar. اين مجموعۀ دادگان براي ارزيابي عملكرد مدل هاي چندوجهي پيشرفته در تشخيص و تفسير توهمات بصري طراحي شدەاند. ما عملكرد Zero-shot مدل هاي مختلف را ارزيابي مي‌كنيم، مدل‌هاي انتخابي را روي مجموعه دادەهاي خود تنظيم دقيق مي‌كنيم و راەحلي ساده و در عين حال مؤثر براي بهبود در تشخيص توهم بصري تصاوير با استفاده از فيلترهاي گاوسي و تاري پايين گذر پيشنهاد مي‌كنيم. يافتەهاي ما تفاوت بين درك انسان و مدل ها از توهم بصري را برجسته مي‌كند و نشان مي‌دهد كه تنظيم دقيق و تكنيك هاي پيش پردازش تصوير مي‌تواند به طور قابل توجهي قدرت مدل را افزايش دهد.

كليدواژه ها

مدل‌هاي چندوجهي , پرسش و پاسخ تصويري , دسته‌بندي تصويري , توليد مجموعه دادگان , Visual Question Answering , VQA , Multimodal Models

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=9117&Field=0&DTC=12