• شماره ركورد
    9234
  • پديد آورنده

    فرزان رحماني

  • عنوان
    پاسخگويي به سؤالات بصري توهم‌آميز: محك زدن و تقويت مدل‌هاي زبان چندوجهي بر روي توهمات بصري
  • مقطع تحصيلي
    كارشناسي
  • رشته تحصيلي
    مهندسي كامپيوتر
  • سال فارغ التحصيلي
    1403
  • استاد راهنما
    دكتر سيد صالح اعتمادي
  • استاد مشاور
    دكتر بهروز مينايي بيدگلي
  • دانشجوي وارد كننده اطلاعات

    فرزان رحماني

  • تاريخ ورود اطلاعات
    1403/06/20
  • دانشكده
    مهندسي كامپيوتر
  • عنوان به انگليسي
    Illusory VQA: Benchmarking and Enhancing Multimodal Language Models on Visual Illusions
  • چكيده
    در سال‌هاي اخير، پاسخ‌گويي به سؤالات بصري (VQA) پيشرفت‌هاي چشمگيري داشته است، به‌ويژه با ظهور مدل‌هاي زبان چندوجهي كه بينش و درك زبان را يكپارچه مي‌كنند. با اين حال، مجموعه داده‌هاي VQA موجود اغلب پيچيدگي‌هاي معرفي شده توسط توهمات بصري موجود در تصاوير را ناديده مي‌گيرند، كه چالش‌هاي منحصربه‌فردي را هم براي درك انسان و هم براي تفسير مدل ايجاد مي‌كنند. در اين مطالعه، ما يك وظيفه جديد به نام پاسخ‌گويي به سؤالات بصري توهم‌آميز را همراه با چهار مجموعه داده تخصصي معرفي مي‌كنيم: IllusionMNIST، IllusionFashionMNIST، IllusionAnimals و IllusionChar. اين مجموعه داده ها براي ارزيابي عملكرد مدل‌هاي زبان چندوجهي پيشرفته در تشخيص و تفسير توهمات بصري طراحي شده اند. ما عملكرد صفر شات مدل‌هاي مختلف را ارزيابي مي‌كنيم، مدل‌هاي انتخاب‌شده را روي مجموعه داده‌هاي خود تنظيم دقيق مي‌كنيم و راه‌حل مؤثري براي تشخيص توهم با استفاده از فيلترهاي پايين‌گذر گاوسي و تاركننده پيشنهاد مي‌كنيم. ما نشان مي‌دهيم كه اين روش عملكرد مدل‌ها را به طور قابل توجهي افزايش مي‌دهد و در مورد BLIP-2 در IllusionAnimals بدون هيچ تنظيم دقيق، از انسان بهتر عمل مي‌كند. يافته‌هاي ما تفاوت بين درك انسان و مدل از توهمات را برجسته مي‌كند و نشان مي‌دهد كه تنظيم دقيق و تكنيك‌هاي پيش‌پردازش خاص مي‌تواند به طور قابل‌توجهي استحكام مدل را افزايش دهد. اين كار به توسعه درك بصري بيشتر شبيه انسان در مدل‌هاي زبان چندوجهي كمك مي‌كند و جهت‌هاي آينده را براي تطبيق فيلترها با استفاده از پارامترهاي قابل يادگيري پيشنهاد مي‌كند.
  • كليدواژه ها
    يادگيري عميق , پردازش زبان‌هاي طبيعي , بينايي كامپيوتر , پاسخ‌گويي به سؤالات بصري , توهمات بصري , مدل‌هاي زبان چندوجهي