-
شماره ركورد
8688
-
پديد آورنده
صدرا مرادي
-
عنوان
طراحي مدل چند وجهي با اتصالات پرشي
-
مقطع تحصيلي
كارشناسي
-
رشته تحصيلي
مهندسي برق-مخابرات
-
سال فارغ التحصيلي
1402
-
استاد راهنما
دكتر فرزان حدادي
-
دانشجوي وارد كننده اطلاعات
صدرا مرادي
-
تاريخ ورود اطلاعات
1402/07/16
-
دانشكده
برق
-
عنوان به انگليسي
Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections
-
چكيده
مدلهاي از پيش آموزشديده در مقياس بزرگ يك الگوي نو ظهور براي ساخت سيستمهاي AI بودهاست كه ميتواند به سرعت
با طيف گستردهاي از وظايف پاييندستي سازگار شود.
در اين مقاله MPLUG كه يك مدل درك و مولد بينايي-زبان چند وجهي است را معرفي ميكنيم)معرفي شدهاست(، بيشتر مدلهاي
از پيش آموزشديده موجود از مشكلات راندمان محاسباتي پايين و عدم تقارن اطلاعات ناشي از توالي بصري طولاني در همترازي
مدلهاي چندوجهي رنج ميبرند. براي حل اين مشكلات MPLUG يك معماري بينايي- زبان كارآمد و موثر با استفاده از اتصالات
پرشي در مدلهاي چند وجهي معرفي ميكند كه ميانبر بين لايهاي ايجاد كرده و تعدادي از لايهها در سمت بينايي را براي زمانبر
بودن Self-attention رد ميكند.
مدل MPLUG به صورت سراسري روي يك جفت تصوير- متن با اهداف متمايز كننده و مولد از پيش آموزشديده است كه نتايج
پيشرفتهاي را روي طيف وسيعي از وظايف پاييندستي زبان- بينايي مانند: نوشتن شرح تصوير، بازيابي تصوير- متن، زمينهسازي
بصري و پاسخگويي به سوالات بصري به دست آوردهاست، همچنين MPLUG عملكرد خوبي روي مدلهاي ZERO -SHOT
زماني كه روي كارهاي ويديو- زبان اعمال ميشود از خود نشان دادهاست.
-
كليدواژه ها
MPLUG ، information asymmetry ، self-attention ، zero-shot
-
لينک به اين مدرک :