شماره ركورد
12777
عنوان
پرسش و پاسخ تصويري و سوگيري هاي آن با استفاده از مدل هاي زباني چند وجهي
سال تحصيل
1401
استاد راهنما
سيد صالح اعتمادي
استاد مشاور
بهروز مينايي بيدگلي
چکيده
پرسش و پاسخ تصويري از مسائل مهم در دنياي امروز است كه براي رسيدن به AGI به آن نياز داريم. اين حوزه در فصل مشترك بينايي ماشين و پردازش زبان طبيعي قرار داشته و در سال هاي اخير پيشرفت هاي زيادي داشته است. براي حل اين مسئله بايد از مدل هاي multi-modal (چند وجهي) كه انواع مختلفي از ورودي را دريافت ميكنند استفاده كرد. در سال هاي اخير ايدههاي فراواني براي افزايش كارايي و افزايش سرعت در پيش آموزش مدلهاي چند وجهي داده شده است. در فصل اول به معرفي و بررسي سيستم پرسش و پاسخ تصويري، مسئله هاي مرتبط با اين مسئله، كاربردها و چالشهاي موجود در اين مسئله ميپردازيم. در فصل دوم به تعريف مفاهيم مبنايي مورد نياز ميپردازيم. سپس در فصل سوم به بررسي مجموعه دادگان موجود در اين حوزه و رويكرد حل اين مسئله، معماريهاي معروف در اين حوزه و معيارهاي ارزيابي و برخي كتابخانههاي موجود براي تسهيل كار در مسائل چند وجهي ميپردازيم. در فصل آخر نيز بعد از نتيجه گيري در مورد مسير هاي موجود براي تحقيقهاي آينده ميپردازيم.
نام دانشجو
محمدمصطفي رستم خاني
تاريخ ارائه
11/15/2023 12:00:00 AM
متن كامل
81079
پديد آورنده
محمد مصطفي رستم خاني
تاريخ ورود اطلاعات
1402/09/07
عنوان به انگليسي
Visual question answering and its biases using multimodal language modelss