-
شماره ركورد
9117
-
پديد آورنده
حوريه سبزواري
-
عنوان
پرسش و پاسخ و دستەبندي تصويري مجموعه دادگان داراي توهم بصري توسط مدل هاي چندوجهي
-
مقطع تحصيلي
كارشناسي
-
رشته تحصيلي
مهندسي كامپيوتر
-
سال فارغ التحصيلي
1403
-
استاد راهنما
دكتر صالح اعتمادي
-
دانشجوي وارد كننده اطلاعات
حوريه سبزواري
-
تاريخ ورود اطلاعات
1403/04/18
-
دانشكده
مهندسي كامپيوتر
-
عنوان به انگليسي
Illusory VQA: Benchmarking and Enhancing Multimodal Models on Visual Illusions
-
چكيده
پرسش و پاسخ تصويري يكي از چالشهاي چندرشتەاي موردتوجه در هوش مصنوعي در سالهاي اخير به شمار ميرود كه براي حل آن نيازمند مدلهايي چندوجهي است كه قادر به استخراج مفاهيم از يك تصوير و تركيب آن با مفاهيم زباني باشد. با اين حال، مجموعه دادەهاي پرسش و پاسخ تصويري موجود اغلب پيچيدگيها و چالش هايي كه توسط توهمات بصري موجود در تصوير ايجاد ميشوند را ناديده ميگيرند. در اين پروژه، ما يك وظيفۀ جديد به نام VQA Illusory را همراه با 4 مجموعۀ دادۀ تخصصي معرفي ميكنيم:IllusionMNIST، IllusionFashionMNIST، IllusionAnimals و IllusionChar. اين مجموعۀ دادگان براي ارزيابي عملكرد مدل هاي چندوجهي پيشرفته در تشخيص و تفسير توهمات بصري طراحي شدەاند. ما عملكرد Zero-shot مدل هاي مختلف را ارزيابي ميكنيم، مدلهاي انتخابي را روي مجموعه دادەهاي خود تنظيم دقيق ميكنيم و راەحلي ساده و در عين حال مؤثر براي بهبود در تشخيص توهم بصري تصاوير با استفاده از فيلترهاي گاوسي و تاري پايين گذر پيشنهاد ميكنيم. يافتەهاي ما تفاوت بين درك انسان و مدل ها از توهم بصري را برجسته ميكند و نشان ميدهد كه تنظيم دقيق و تكنيك هاي پيش پردازش تصوير ميتواند به طور قابل توجهي قدرت مدل را افزايش دهد.
-
كليدواژه ها
مدلهاي چندوجهي , پرسش و پاسخ تصويري , دستهبندي تصويري , توليد مجموعه دادگان , Visual Question Answering , VQA , Multimodal Models
-
لينک به اين مدرک :