شماره ركورد
9140
پديد آورنده
بكتاش انصاري اوغول بك
عنوان
پرسش و پاسخ و دستهبندي تصويري مجموعه دادگان داراي توهم توسط مدلهاي چندوجهي
مقطع تحصيلي
كارشناسي
رشته تحصيلي
مهندسي كامپيوتر
سال فارغ التحصيلي
1403
استاد راهنما
دكتر صالح اعتمادي
دانشجوي وارد كننده اطلاعات
بكتاش انصاري اوغول بك
تاريخ ورود اطلاعات
1403/06/10
دانشكده
مهندسي كامپيوتر
عنوان به انگليسي
Illusory VQA: Benchmarking and Enhancing Multimodal Models on Visual Illusions
چكيده
در سالهاي اخير، حوزه پرسش و پاسخ تصويري به ويژه با ظهور مدلهاي چندوجهي كه به طور همزمان فهم بينايي و زبان را ادغام ميكنند، پيشرفتهاي قابل توجهي داشته است. با پيشرفت اين حوزه، مجموعه دادگان مرتبط نيز به لحاظ پيچيدگي توسعه يافتهاند تا بتوانند مدلها را به چالش بكشند. با اين حال پيچيدگيهاي ناشي از توهم بصري در اين مجموعه دادگان به طور كامل مورد توجه قرار نگرفتهاند. در اين پروژه، با توليد و ارائه چندين مجموعه دادگان كه شامل توهمات بصري هستند، به بررسي و تقويت عملكرد مدلهاي زباني چند وجهي ميپردازيم. همچنين براي در نظر گرفتن گستره بزرگتري از اين مدلها، روشهاي تطبيق تصوير و متن را نيز مورد بررسي قرار خواهيم داد.
كليدواژه ها
پرسش و پاسخ تصويري , دسته بندي تصاوير , مدلهاي چندوجهي