فرزان رحماني

عنوان

پاسخگويي به سؤالات بصري توهم‌آميز: محك زدن و تقويت مدل‌هاي زبان چندوجهي بر روي توهمات بصري

مقطع تحصيلي

كارشناسي

رشته تحصيلي

مهندسي كامپيوتر

سال فارغ التحصيلي

1403

استاد راهنما

دكتر سيد صالح اعتمادي

استاد مشاور

دكتر بهروز مينايي بيدگلي

دانشجوي وارد كننده اطلاعات

فرزان رحماني

تاريخ ورود اطلاعات

1403/06/20

دانشكده

مهندسي كامپيوتر

عنوان به انگليسي

Illusory VQA: Benchmarking and Enhancing Multimodal Language Models on Visual Illusions

چكيده

در سال‌هاي اخير، پاسخ‌گويي به سؤالات بصري (VQA) پيشرفت‌هاي چشمگيري داشته است، به‌ويژه با ظهور مدل‌هاي زبان چندوجهي كه بينش و درك زبان را يكپارچه مي‌كنند. با اين حال، مجموعه داده‌هاي VQA موجود اغلب پيچيدگي‌هاي معرفي شده توسط توهمات بصري موجود در تصاوير را ناديده مي‌گيرند، كه چالش‌هاي منحصربه‌فردي را هم براي درك انسان و هم براي تفسير مدل ايجاد مي‌كنند. در اين مطالعه، ما يك وظيفه جديد به نام پاسخ‌گويي به سؤالات بصري توهم‌آميز را همراه با چهار مجموعه داده تخصصي معرفي مي‌كنيم: IllusionMNIST، IllusionFashionMNIST، IllusionAnimals و IllusionChar. اين مجموعه داده ها براي ارزيابي عملكرد مدل‌هاي زبان چندوجهي پيشرفته در تشخيص و تفسير توهمات بصري طراحي شده اند. ما عملكرد صفر شات مدل‌هاي مختلف را ارزيابي مي‌كنيم، مدل‌هاي انتخاب‌شده را روي مجموعه داده‌هاي خود تنظيم دقيق مي‌كنيم و راه‌حل مؤثري براي تشخيص توهم با استفاده از فيلترهاي پايين‌گذر گاوسي و تاركننده پيشنهاد مي‌كنيم. ما نشان مي‌دهيم كه اين روش عملكرد مدل‌ها را به طور قابل توجهي افزايش مي‌دهد و در مورد BLIP-2 در IllusionAnimals بدون هيچ تنظيم دقيق، از انسان بهتر عمل مي‌كند. يافته‌هاي ما تفاوت بين درك انسان و مدل از توهمات را برجسته مي‌كند و نشان مي‌دهد كه تنظيم دقيق و تكنيك‌هاي پيش‌پردازش خاص مي‌تواند به طور قابل‌توجهي استحكام مدل را افزايش دهد. اين كار به توسعه درك بصري بيشتر شبيه انسان در مدل‌هاي زبان چندوجهي كمك مي‌كند و جهت‌هاي آينده را براي تطبيق فيلترها با استفاده از پارامترهاي قابل يادگيري پيشنهاد مي‌كند.

كليدواژه ها

يادگيري عميق , پردازش زبان‌هاي طبيعي , بينايي كامپيوتر , پاسخ‌گويي به سؤالات بصري , توهمات بصري , مدل‌هاي زبان چندوجهي

لينک به اين مدرک :

http://dl.iust.ac.ir/dL/search/default.aspx?Term=9234&Field=0&DTC=12