شماره ركورد
9804
پديد آورنده
سيد محمد علي فخاري
عنوان
تنظيم دقيق مدلهاي بينايي-زباني براي بازشناسي انسان
مقطع تحصيلي
كارشناسي
رشته تحصيلي
مهندسي كامپيوتر
سال فارغ التحصيلي
1399
استاد راهنما
دكتر محمدي
دانشجوي وارد كننده اطلاعات
سيدمحمدعلي فخاري
تاريخ ورود اطلاعات
1404/07/07
دانشكده
مهندسي كامپيوتر
عنوان به انگليسي
Fine-tuning Vision Language Models for Person Re-Identification
چكيده
شناسايي مجدد انسان يͺͬ از مسائل اساسͬ در حوزەي بينايي كامپيوتر است كه با هدف شناسايي و تطبيق افراد در تصاوير يا
ويدئوهاي ثبت شده توسط دوربين هاي مختلف انجام مͬ گيرد. اين فناوري در كاربردهايي همچون نظارت تصويري، جست وجوي
افراد و تحليل رفتار آن ها اهميت ويژەاي دارد. با اين حال، عواملͬ نظير تغيير زاويه ديد، شرايط نوري، پوشش هاي متنوع و انسداد
بخشͬ از بدن، فرآيند شناسايي دقيق را دشوار مͬ سازد. در اين پژوهش با تمركز بر تنظيم دقيق مدل هاي بينايي⁃زبان،ͬ تلاش شده
است تا عملͺرد مدل هاي پيش آموزش يافته براي بازشناسͬ افراد بهبود يابد. بدين منظور، از مدل CLIP بەعنوان چارچوب پايه
استفاده گرديد و روش ReID-CLIP با اصلاحات پيشنهادي توسعه يافت. نوآوري اصلͬ اين پژوهش در بهرەگيري از پرامپت هاي
عميق متنͬ مشترك و اختصاصͬ است كه بەجاي افزودن صرفاً در ابتدا يا انتهاي توالͬ ورودي، در لايەهاي ميانͬ ترانسفورمر
تزريق مͬ شوند. اين طراحͬ موجب استخراج ويژگͬ هاي غنͬ تر و معنادارتر گرديد. افزون بر اين، در مرحلەي دوم آموزش، از
تكنيͷ LoRA براي تنظيم دقيق رمزگذار تصويري استفاده شد. نتايج آزمايش ها نشان داد كه روش پيشنهادي بهبود قابل توجهͬ
نسبت به مدل پايه ايجاد مͬ كند. بەطور خاص، در مجموعەدادەي -1501Market دقت -1Rank از 95.22% به 95.47% و مقدار
mAP از89.67% به 89.88% افزايش يافت. در مجموعەدادەي reID-DukeMTMC نيز mAP از 82.77% به83.01% و -1Rank
از 90.57% به 91.00% ارتقاء پيدا كرد. در نهايت، بر روي مجموعەدادەي بومͬ IUST كه شامل شرايط پوششͬ و فرهنگͬ
متفاوت است، استفاده از كاهش بˀعد در كنار پرامپت هاي عميق توانست بهترين عملͺرد را رقم بزند و -1Rank را از 61.40%
به 62.15% و mAP را از 51.60% به 51.74% بهبود دهد. اين نتايج نشان مͬ دهند كه رويͺرد پيشنهادي توانسته است با حفظ
كارايي محاسبات،ͬ دقت بازشناسͬ را در مجموعەدادەهاي استاندارد و بەويژه در مجموعەدادەي بومͬ IUST بهبود دهد. بدين
ترتيب، روش ارائەشده مͬ تواند بەعنوان گامͬ مؤثر در توسعەي مدل هاي بازشناسͬ انسان در محيط هاي متنوع و چالش برانگيز
مورد استفاده قرار گيرد. موارد پيادەسازي شده از اين لينك قابل دسترسͬ هستند.