-
شماره ركورد
9234
-
پديد آورنده
فرزان رحماني
-
عنوان
پاسخگويي به سؤالات بصري توهمآميز: محك زدن و تقويت مدلهاي زبان چندوجهي بر روي توهمات بصري
-
مقطع تحصيلي
كارشناسي
-
رشته تحصيلي
مهندسي كامپيوتر
-
سال فارغ التحصيلي
1403
-
استاد راهنما
دكتر سيد صالح اعتمادي
-
استاد مشاور
دكتر بهروز مينايي بيدگلي
-
دانشجوي وارد كننده اطلاعات
فرزان رحماني
-
تاريخ ورود اطلاعات
1403/06/20
-
دانشكده
مهندسي كامپيوتر
-
عنوان به انگليسي
Illusory VQA: Benchmarking and Enhancing Multimodal Language Models on Visual Illusions
-
چكيده
در سالهاي اخير، پاسخگويي به سؤالات بصري (VQA) پيشرفتهاي چشمگيري داشته است، بهويژه با ظهور مدلهاي زبان چندوجهي كه بينش و درك زبان را يكپارچه ميكنند. با اين حال، مجموعه دادههاي VQA موجود اغلب پيچيدگيهاي معرفي شده توسط توهمات بصري موجود در تصاوير را ناديده ميگيرند، كه چالشهاي منحصربهفردي را هم براي درك انسان و هم براي تفسير مدل ايجاد ميكنند. در اين مطالعه، ما يك وظيفه جديد به نام پاسخگويي به سؤالات بصري توهمآميز را همراه با چهار مجموعه داده تخصصي معرفي ميكنيم: IllusionMNIST، IllusionFashionMNIST، IllusionAnimals و IllusionChar. اين مجموعه داده ها براي ارزيابي عملكرد مدلهاي زبان چندوجهي پيشرفته در تشخيص و تفسير توهمات بصري طراحي شده اند. ما عملكرد صفر شات مدلهاي مختلف را ارزيابي ميكنيم، مدلهاي انتخابشده را روي مجموعه دادههاي خود تنظيم دقيق ميكنيم و راهحل مؤثري براي تشخيص توهم با استفاده از فيلترهاي پايينگذر گاوسي و تاركننده پيشنهاد ميكنيم. ما نشان ميدهيم كه اين روش عملكرد مدلها را به طور قابل توجهي افزايش ميدهد و در مورد BLIP-2 در IllusionAnimals بدون هيچ تنظيم دقيق، از انسان بهتر عمل ميكند. يافتههاي ما تفاوت بين درك انسان و مدل از توهمات را برجسته ميكند و نشان ميدهد كه تنظيم دقيق و تكنيكهاي پيشپردازش خاص ميتواند به طور قابلتوجهي استحكام مدل را افزايش دهد. اين كار به توسعه درك بصري بيشتر شبيه انسان در مدلهاي زبان چندوجهي كمك ميكند و جهتهاي آينده را براي تطبيق فيلترها با استفاده از پارامترهاي قابل يادگيري پيشنهاد ميكند.
-
كليدواژه ها
يادگيري عميق , پردازش زبانهاي طبيعي , بينايي كامپيوتر , پاسخگويي به سؤالات بصري , توهمات بصري , مدلهاي زبان چندوجهي
-
لينک به اين مدرک :