سيد محمد علي فخاري

عنوان

تنظيم دقيق مدل‌هاي بينايي-زباني براي بازشناسي انسان

مقطع تحصيلي

كارشناسي

رشته تحصيلي

مهندسي كامپيوتر

سال فارغ التحصيلي

1399

استاد راهنما

دكتر محمدي

دانشجوي وارد كننده اطلاعات

سيدمحمدعلي فخاري

Name: سيدمحمدعلي فخاري
Author: سيد محمد علي فخاري

تاريخ ورود اطلاعات

1404/07/07

دانشكده

مهندسي كامپيوتر

عنوان به انگليسي

Fine-tuning Vision Language Models for Person Re-Identification

چكيده

شناسايي مجدد انسان يͺͬ از مسائل اساسͬ در حوزەي بينايي كامپيوتر است كه با هدف شناسايي و تطبيق افراد در تصاوير يا ويدئوهاي ثبت شده توسط دوربين هاي مختلف انجام مͬ گيرد. اين فناوري در كاربردهايي همچون نظارت تصويري، جست وجوي افراد و تحليل رفتار آن ها اهميت ويژەاي دارد. با اين حال، عواملͬ نظير تغيير زاويه ديد، شرايط نوري، پوشش هاي متنوع و انسداد بخشͬ از بدن، فرآيند شناسايي دقيق را دشوار مͬ سازد. در اين پژوهش با تمركز بر تنظيم دقيق مدل هاي بينايي⁃زبان،ͬ تلاش شده است تا عملͺرد مدل هاي پيش آموزش يافته براي بازشناسͬ افراد بهبود يابد. بدين منظور، از مدل CLIP بەعنوان چارچوب پايه استفاده گرديد و روش ReID-CLIP با اصلاحات پيشنهادي توسعه يافت. نوآوري اصلͬ اين پژوهش در بهرەگيري از پرامپت هاي عميق متنͬ مشترك و اختصاصͬ است كه بەجاي افزودن صرفاً در ابتدا يا انتهاي توالͬ ورودي، در لايەهاي ميانͬ ترانسفورمر تزريق مͬ شوند. اين طراحͬ موجب استخراج ويژگͬ هاي غنͬ تر و معنادارتر گرديد. افزون بر اين، در مرحلەي دوم آموزش، از تكنيͷ LoRA براي تنظيم دقيق رمزگذار تصويري استفاده شد. نتايج آزمايش ها نشان داد كه روش پيشنهادي بهبود قابل توجهͬ نسبت به مدل پايه ايجاد مͬ كند. بەطور خاص، در مجموعەدادەي -1501Market دقت -1Rank از 95.22% به 95.47% و مقدار mAP از89.67% به 89.88% افزايش يافت. در مجموعەدادەي reID-DukeMTMC نيز mAP از 82.77% به83.01% و -1Rank از 90.57% به 91.00% ارتقاء پيدا كرد. در نهايت، بر روي مجموعەدادەي بومͬ IUST كه شامل شرايط پوششͬ و فرهنگͬ متفاوت است، استفاده از كاهش بˀعد در كنار پرامپت هاي عميق توانست بهترين عملͺرد را رقم بزند و -1Rank را از 61.40% به 62.15% و mAP را از 51.60% به 51.74% بهبود دهد. اين نتايج نشان مͬ دهند كه رويͺرد پيشنهادي توانسته است با حفظ كارايي محاسبات،ͬ دقت بازشناسͬ را در مجموعەدادەهاي استاندارد و بەويژه در مجموعەدادەي بومͬ IUST بهبود دهد. بدين ترتيب، روش ارائەشده مͬ تواند بەعنوان گامͬ مؤثر در توسعەي مدل هاي بازشناسͬ انسان در محيط هاي متنوع و چالش برانگيز مورد استفاده قرار گيرد. موارد پيادەسازي شده از اين لينك قابل دسترسͬ هستند.

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=9804&Field=0&DTC=12