شماره ركورد
9117
پديد آورنده
حوريه سبزواري
عنوان
پرسش و پاسخ و دستەبندي تصويري مجموعه دادگان داراي توهم بصري توسط مدل هاي چندوجهي
مقطع تحصيلي
كارشناسي
رشته تحصيلي
مهندسي كامپيوتر
سال فارغ التحصيلي
1403
استاد راهنما
دكتر صالح اعتمادي
دانشجوي وارد كننده اطلاعات
حوريه سبزواري
تاريخ ورود اطلاعات
1403/04/18
دانشكده
مهندسي كامپيوتر
عنوان به انگليسي
Illusory VQA: Benchmarking and Enhancing Multimodal Models on Visual Illusions
چكيده
پرسش و پاسخ تصويري يكي از چالشهاي چندرشتەاي موردتوجه در هوش مصنوعي در سالهاي اخير به شمار ميرود كه براي حل آن نيازمند مدلهايي چندوجهي است كه قادر به استخراج مفاهيم از يك تصوير و تركيب آن با مفاهيم زباني باشد. با اين حال، مجموعه دادەهاي پرسش و پاسخ تصويري موجود اغلب پيچيدگيها و چالش هايي كه توسط توهمات بصري موجود در تصوير ايجاد ميشوند را ناديده ميگيرند. در اين پروژه، ما يك وظيفۀ جديد به نام VQA Illusory را همراه با 4 مجموعۀ دادۀ تخصصي معرفي ميكنيم:IllusionMNIST، IllusionFashionMNIST، IllusionAnimals و IllusionChar. اين مجموعۀ دادگان براي ارزيابي عملكرد مدل هاي چندوجهي پيشرفته در تشخيص و تفسير توهمات بصري طراحي شدەاند. ما عملكرد Zero-shot مدل هاي مختلف را ارزيابي ميكنيم، مدلهاي انتخابي را روي مجموعه دادەهاي خود تنظيم دقيق ميكنيم و راەحلي ساده و در عين حال مؤثر براي بهبود در تشخيص توهم بصري تصاوير با استفاده از فيلترهاي گاوسي و تاري پايين گذر پيشنهاد ميكنيم. يافتەهاي ما تفاوت بين درك انسان و مدل ها از توهم بصري را برجسته ميكند و نشان ميدهد كه تنظيم دقيق و تكنيك هاي پيش پردازش تصوير ميتواند به طور قابل توجهي قدرت مدل را افزايش دهد.
كليدواژه ها
مدلهاي چندوجهي , پرسش و پاسخ تصويري , دستهبندي تصويري , توليد مجموعه دادگان , Visual Question Answering , VQA , Multimodal Models