• شماره ركورد
    12777
  • عنوان
    پرسش و پاسخ تصويري و سوگيري هاي آن با استفاده از مدل هاي زباني چند وجهي
  • سال تحصيل
    1401
  • استاد راهنما
    سيد صالح اعتمادي
  • استاد مشاور
    بهروز مينايي بيدگلي
  • چکيده
    پرسش و پاسخ تصويري از مسائل مهم در دنياي امروز است كه براي رسيدن به AGI به آن نياز داريم. اين حوزه در فصل مشترك بينايي ماشين و پردازش زبان طبيعي قرار داشته و در سال هاي اخير پيشرفت هاي زيادي داشته است. براي حل اين مسئله بايد از مدل هاي multi-modal (چند وجهي) كه انواع مختلفي از ورودي را دريافت مي‌كنند استفاده كرد. در سال هاي اخير ايده‌هاي فراواني براي افزايش كارايي و افزايش سرعت در پيش آموزش مدل‌هاي چند وجهي داده شده است. در فصل اول به معرفي و بررسي سيستم پرسش و پاسخ تصويري، مسئله هاي مرتبط با اين مسئله، كاربرد‌ها و چالش‌هاي موجود در اين مسئله مي‌پردازيم. در فصل دوم به تعريف مفاهيم مبنايي مورد نياز مي‌پردازيم. سپس در فصل سوم به بررسي مجموعه دادگان موجود در اين حوزه و رويكرد حل اين مسئله، معماري‌هاي معروف در اين حوزه و معيار‌هاي ارزيابي و برخي كتابخانه‌هاي موجود براي تسهيل كار در مسائل چند وجهي مي‌پردازيم. در فصل آخر نيز بعد از نتيجه گيري در مورد مسير هاي موجود براي تحقيق‌هاي آينده مي‌پردازيم.
  • نام دانشجو

    محمدمصطفي رستم خاني

  • تاريخ ارائه
    11/15/2023 12:00:00 AM
  • متن كامل
    81079
  • پديد آورنده

    محمد مصطفي رستم خاني

  • تاريخ ورود اطلاعات
    1402/09/07
  • عنوان به انگليسي
    Visual question answering and its biases using multimodal language modelss