شماره ركورد
8688
پديد آورنده
صدرا مرادي
عنوان
طراحي مدل چند وجهي با اتصالات پرشي
مقطع تحصيلي
كارشناسي
رشته تحصيلي
مهندسي برق-مخابرات
سال فارغ التحصيلي
1402
استاد راهنما
دكتر فرزان حدادي
دانشجوي وارد كننده اطلاعات
صدرا مرادي
تاريخ ورود اطلاعات
1402/07/16
دانشكده
برق
عنوان به انگليسي
Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections
چكيده
مدلهاي از پيش آموزشديده در مقياس بزرگ يك الگوي نو ظهور براي ساخت سيستمهاي AI بودهاست كه ميتواند به سرعت
با طيف گستردهاي از وظايف پاييندستي سازگار شود.
در اين مقاله MPLUG كه يك مدل درك و مولد بينايي-زبان چند وجهي است را معرفي ميكنيم)معرفي شدهاست(، بيشتر مدلهاي
از پيش آموزشديده موجود از مشكلات راندمان محاسباتي پايين و عدم تقارن اطلاعات ناشي از توالي بصري طولاني در همترازي
مدلهاي چندوجهي رنج ميبرند. براي حل اين مشكلات MPLUG يك معماري بينايي- زبان كارآمد و موثر با استفاده از اتصالات
پرشي در مدلهاي چند وجهي معرفي ميكند كه ميانبر بين لايهاي ايجاد كرده و تعدادي از لايهها در سمت بينايي را براي زمانبر
بودن Self-attention رد ميكند.
مدل MPLUG به صورت سراسري روي يك جفت تصوير- متن با اهداف متمايز كننده و مولد از پيش آموزشديده است كه نتايج
پيشرفتهاي را روي طيف وسيعي از وظايف پاييندستي زبان- بينايي مانند: نوشتن شرح تصوير، بازيابي تصوير- متن، زمينهسازي
بصري و پاسخگويي به سوالات بصري به دست آوردهاست، همچنين MPLUG عملكرد خوبي روي مدلهاي ZERO -SHOT
زماني كه روي كارهاي ويديو- زبان اعمال ميشود از خود نشان دادهاست.
كليدواژه ها
MPLUG ، information asymmetry ، self-attention ، zero-shot