شماره ركورد
10114
پديد آورنده
سيدمحمدعلي ميرمحمدي
عنوان
تقطير دانش وظيفه محور از يك مدل بينايي بزرگ پيش آموخته به يك مدل سريع
مقطع تحصيلي
كارشناسي
رشته تحصيلي
مهندسي كامپيوتر
سال فارغ التحصيلي
1404
استاد راهنما
محمدرضا محمدي
دانشجوي وارد كننده اطلاعات
سيدمحمدعلي ميرمحمدي
تاريخ ورود اطلاعات
1404/09/01
دانشكده
مهندسي كامپيوتر
عنوان به انگليسي
Task-Oriented Knowledge Distillation from a Large Pre-Trained Vision Model to a Lightweight Model
چكيده
در سال هاي اخير، مدل هاي زباني–بينايي ) (Vision-Language Modelsمانند CLIPو ALIGNبا آموزش بر روي داده هاي عظيم
تصوير–متن،توانسته انددركعميقومفهوميازمحتوايبصريرا به دستآورندودروظايفگوناگونبدوننيازبهداده هايبرچسب دار،
عملكردي چشمگير از خود نشان دهند. با اين حال، اندازه ي بزرگ و نياز محاسباتي بالاي اين مدل ها مانع استفاده ي آن ها در
كاربردهاي عملي، به ويژه در محيط هاي محدود به منابع، مي شود. يكي از رويكردهاي مؤثر براي فشرده سازي چنين مدل هايي،
تقطير دانش است كه در آن، دانش يك مدل بزرگ )معلم( به مدل سبك تر و سريع تري )دانش آموز( منتقل مي گردد.
در اين پژوهش، چارچوبي نوين براي تقطير دانش وظيفه محور از يك مدل بينايي بزرگ پيش آموخته به يك مدل سريع
ارائه شده است. چارچوب پيشنهادي با الهام از روش VL2Liteطراحي شده كه در آن، مدل معلم علاوه بر تصوير، ورودي متني نيز
دريافت مي كند تا دانش تركيبي زباني–بينايي را به مدل شاگرد منتقل كند. با وجود مزاياي ،VL2Liteپرامپت هاي متني در اين روش
به صورت دستي طراحي مي شوند كه منجر به محدوديت در تعميم و كاهش دقت مي گردد. براي رفع اين مشكل، در اين پژوهش از
ايده ي (Context Optimization) CoOpاستفاده شده است تا پرامپت ها به صورت قابل يادگيري و داده محور بهينه شوند.
در روش پيشنهادي، پرامپت هاي يادگرفته شده ي CoOpجايگزين پرامپت هاي دستي VL2Liteمي شوند تا نمايش هاي متني
بهينه تري براي فرآيند تقطير ايجاد گردد. نتايج آزمايش ها بر روي مجموعه داده هاي FGVC Aircraftو Describable Texture
نشان داد كه تركيب VL2Lite + CoOpنسبت به نسخه ي پايه ي VL2Liteدقت بالاتري ارائه مي دهد. اين امر بيانگر آن است كه
پرامپت هاي يادگرفته شده مي توانند هم ترازي دقيق تري ميان فضاي زباني و بينايي برقرار كنند و به انتقال مؤثرتر دانش كمك نمايند.
به طور كلي، پژوهش حاضر گامي در جهت خودكارسازي فرآيند تقطير دانش وظيفه محور و بهبود كارايي مدل هاي سبك وزن
برداشته است. اين چارچوب مي تواند زمينه ساز استفاده ي گسترده تر از مدل هاي زباني–بينايي در كاربردهاي واقعي و بلادرنگ باشد.
كليدواژه ها
تقطير دانش , مدلهاي زباني-بينايي , يادگيري پرامپت , VL2Lite , CoOp , فشردهسازي مدلها , يادگيري چندوجهي