• شماره ركورد
    9140
  • پديد آورنده

    بكتاش انصاري اوغول بك

  • عنوان
    پرسش و پاسخ و دسته‌بندي تصويري مجموعه دادگان داراي توهم توسط مدل‌هاي چندوجهي
  • مقطع تحصيلي
    كارشناسي
  • رشته تحصيلي
    مهندسي كامپيوتر
  • سال فارغ التحصيلي
    1403
  • استاد راهنما
    دكتر صالح اعتمادي
  • دانشجوي وارد كننده اطلاعات

    بكتاش انصاري اوغول بك

  • تاريخ ورود اطلاعات
    1403/06/10
  • دانشكده
    مهندسي كامپيوتر
  • عنوان به انگليسي
    Illusory VQA: Benchmarking and Enhancing Multimodal Models on Visual Illusions
  • چكيده
    در سال‌هاي اخير، حوزه پرسش و پاسخ تصويري به ويژه با ظهور مدل‌هاي چندوجهي كه به طور همزمان فهم بينايي و زبان را ادغام ميكنند، پيشرفت‌هاي قابل توجهي داشته است. با پيشرفت اين حوزه، مجموعه دادگان مرتبط نيز به لحاظ پيچيدگي توسعه يافته‌اند تا بتوانند مدل‌ها را به چالش بكشند. با اين حال پيچيدگي‌هاي ناشي از توهم بصري در اين مجموعه دادگان به طور كامل مورد توجه قرار نگرفته‌اند. در اين پروژه، با توليد و ارائه چندين مجموعه دادگان كه شامل توهمات بصري هستند، به بررسي و تقويت عملكرد مدل‌هاي زباني چند وجهي مي‌پردازيم. همچنين براي در نظر گرفتن گستره بزرگتري از اين مدل‌ها، روش‌هاي تطبيق تصوير و متن را نيز مورد بررسي قرار خواهيم داد.
  • كليدواژه ها
    پرسش و پاسخ تصويري , دسته بندي تصاوير , مدل‌هاي چند‌وجهي