سيدمحمدعلي ميرمحمدي

عنوان

تقطير دانش وظيفه محور از يك مدل بينايي بزرگ پيش آموخته به يك مدل سريع

مقطع تحصيلي

كارشناسي

رشته تحصيلي

مهندسي كامپيوتر

سال فارغ التحصيلي

1404

استاد راهنما

محمدرضا محمدي

دانشجوي وارد كننده اطلاعات

سيدمحمدعلي ميرمحمدي

Name: سيدمحمدعلي ميرمحمدي
Author: سيدمحمدعلي ميرمحمدي

تاريخ ورود اطلاعات

1404/09/01

دانشكده

مهندسي كامپيوتر

عنوان به انگليسي

Task-Oriented Knowledge Distillation from a Large Pre-Trained Vision Model to a Lightweight Model

چكيده

در سال هاي اخير، مدل هاي زباني–بينايي ) (Vision-Language Modelsمانند CLIPو ALIGNبا آموزش بر روي داده هاي عظيم تصوير–متن،توانسته انددركعميقومفهوميازمحتوايبصريرا به دستآورندودروظايفگوناگونبدوننيازبهداده هايبرچسب دار، عملكردي چشمگير از خود نشان دهند. با اين حال، اندازه ي بزرگ و نياز محاسباتي بالاي اين مدل ها مانع استفاده ي آن ها در كاربردهاي عملي، به ويژه در محيط هاي محدود به منابع، مي شود. يكي از رويكردهاي مؤثر براي فشرده سازي چنين مدل هايي، تقطير دانش است كه در آن، دانش يك مدل بزرگ )معلم( به مدل سبك تر و سريع تري )دانش آموز( منتقل مي گردد. در اين پژوهش، چارچوبي نوين براي تقطير دانش وظيفه محور از يك مدل بينايي بزرگ پيش آموخته به يك مدل سريع ارائه شده است. چارچوب پيشنهادي با الهام از روش VL2Liteطراحي شده كه در آن، مدل معلم علاوه بر تصوير، ورودي متني نيز دريافت مي كند تا دانش تركيبي زباني–بينايي را به مدل شاگرد منتقل كند. با وجود مزاياي ،VL2Liteپرامپت هاي متني در اين روش به صورت دستي طراحي مي شوند كه منجر به محدوديت در تعميم و كاهش دقت مي گردد. براي رفع اين مشكل، در اين پژوهش از ايده ي (Context Optimization) CoOpاستفاده شده است تا پرامپت ها به صورت قابل يادگيري و داده محور بهينه شوند. در روش پيشنهادي، پرامپت هاي يادگرفته شده ي CoOpجايگزين پرامپت هاي دستي VL2Liteمي شوند تا نمايش هاي متني بهينه تري براي فرآيند تقطير ايجاد گردد. نتايج آزمايش ها بر روي مجموعه داده هاي FGVC Aircraftو Describable Texture نشان داد كه تركيب VL2Lite + CoOpنسبت به نسخه ي پايه ي VL2Liteدقت بالاتري ارائه مي دهد. اين امر بيانگر آن است كه پرامپت هاي يادگرفته شده مي توانند هم ترازي دقيق تري ميان فضاي زباني و بينايي برقرار كنند و به انتقال مؤثرتر دانش كمك نمايند. به طور كلي، پژوهش حاضر گامي در جهت خودكارسازي فرآيند تقطير دانش وظيفه محور و بهبود كارايي مدل هاي سبك وزن برداشته است. اين چارچوب مي تواند زمينه ساز استفاده ي گسترده تر از مدل هاي زباني–بينايي در كاربردهاي واقعي و بلادرنگ باشد.

كليدواژه ها

تقطير دانش , مدل‌هاي زباني-بينايي , يادگيري پرامپت , VL2Lite , CoOp , فشرده‌سازي مدل‌ها , يادگيري چندوجهي

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=10114&Field=0&DTC=12