-
شماره ركورد
12777
-
عنوان
پرسش و پاسخ تصويري و سوگيري هاي آن با استفاده از مدل هاي زباني چند وجهي
-
سال تحصيل
1401
-
استاد راهنما
سيد صالح اعتمادي
-
استاد مشاور
بهروز مينايي بيدگلي
-
چکيده
پرسش و پاسخ تصويري از مسائل مهم در دنياي امروز است كه براي رسيدن به AGI به آن نياز داريم. اين حوزه در فصل مشترك بينايي ماشين و پردازش زبان طبيعي قرار داشته و در سال هاي اخير پيشرفت هاي زيادي داشته است. براي حل اين مسئله بايد از مدل هاي multi-modal (چند وجهي) كه انواع مختلفي از ورودي را دريافت ميكنند استفاده كرد. در سال هاي اخير ايدههاي فراواني براي افزايش كارايي و افزايش سرعت در پيش آموزش مدلهاي چند وجهي داده شده است. در فصل اول به معرفي و بررسي سيستم پرسش و پاسخ تصويري، مسئله هاي مرتبط با اين مسئله، كاربردها و چالشهاي موجود در اين مسئله ميپردازيم. در فصل دوم به تعريف مفاهيم مبنايي مورد نياز ميپردازيم. سپس در فصل سوم به بررسي مجموعه دادگان موجود در اين حوزه و رويكرد حل اين مسئله، معماريهاي معروف در اين حوزه و معيارهاي ارزيابي و برخي كتابخانههاي موجود براي تسهيل كار در مسائل چند وجهي ميپردازيم. در فصل آخر نيز بعد از نتيجه گيري در مورد مسير هاي موجود براي تحقيقهاي آينده ميپردازيم.
-
نام دانشجو
محمدمصطفي رستم خاني
-
تاريخ ارائه
11/15/2023 12:00:00 AM
-
متن كامل
81079
-
پديد آورنده
محمد مصطفي رستم خاني
-
تاريخ ورود اطلاعات
1402/09/07
-
عنوان به انگليسي
Visual question answering and its biases using multimodal language modelss
-
لينک به اين مدرک :