محمد رضايي راد

عنوان

استفاده از تكنيك‌هاي فرا-يادگيرندگي در رديابي اشياء

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

مهندسي برق

سال تحصيل

1397

تاريخ دفاع

1401/8/22

استاد راهنما

دكتر شهريار برادران شكوهي

دانشكده

مهندسي برق

چكيده

رديابي اشياء به عنوان يكي از بخش‌هاي اصلي بينايي كامپيوتر همواره توّجه بسياري از محقّقين اين حوزه را جهت رفع چالش‌هاي ان به خود جلب كرده است. رديابي هدف به دليل ماهيّت بلادرنگ آن در سناريوهاي دنياي حقيقي، نيازمند تدابير و تكنيك‌هاي ويژه‌اي در فرايند اموزش مدل جهت مقاومت هرچه بيشتر آن در مواجهه با چالش‌‌هاي پيش‌رو مي‌باشد. استفاده از رويكردهاي بروزرساني مدل در حين انجام عمليات رديابي جهت سازگاري هرچه بيشتر مدل با تغييرات سوژه و محيط را مي‌توان به عنوان يكي از موثّرترين رويكردها نام برد. در متدهاي معمول از بروزرساني مدل عموماً از داده‌هاي پيشين فرايند به عنوان نمونه‌‌هاي جديد اموزش استفاده مي‌شود كه اتّخاذ اين روش اگرچه مي‌تواند عملكرد بهتري نسبت به مدل ثابت از خود نشان دهد امّا مدل را براي مواجهه با چالش‌هاي پيش‌رو به درستي آماده نمي‌كند. تعيين بهترين مقدار از نرخ يادگيري به عنوان يكي از ابر-پارامترهاي كليدي در مسائل يادگيري، همواره وقت و هزينه بالايي را متحمّل متخصّصان اين حوزه كرده‌است. نرخ يادگيري با هدف تعيين ميزان تغييرات پارامترهاي مدل در فرايند آموزش، بصورت غيرمحاسباتي تعيين مي‌شود كه عدم انتخاب صحيح آن منجر به كاهش سرعت همگرايي مدل و يا سردرگم شدن آن در اطراف نقطه بهينه مي‌شود. از طرف ديگر، انتخاب مقدار يكسان براي تمام پارامترهاي مدل در فرايند اموزش با توجه به كاركرد متفاوت هر پارامتر در مكان‌هاي مختلف از هر فيلتر و لايه‌هاي گوناگون نمي‌تواند بهترين عملكرد را نتيجه دهد. فرا-يادگيرندگي با هدف يادگيري فرايند يادگيري مي‌تواند با اتّكا بر داده‌هاي آينده، عملكردي بهتر از مدل را به نمايش گذارد. در مسئله فرا-يادگيرندگي، فرايند آموزش خود نيز شامل زير-فرايندهاي تست و آموزش مي‌باشد كه بتواند بهترين امادگي را براي مواجهه با چالش‌هاي پيش‌روي ردياب فراهم سازد. در اين پژوهش، يك ماژول جانبي بازگشتي LSTM جهت بروزرساني مدل در بازه‌هاي مشخص پيشنهاد شده‌‌است. اين ماژول كه بصورت آفلاين در فرايند اموزش با اتّكا بر فريم‌هاي اينده آموزش مي‌بيند، در فرايند تست با دريافت مقادير خطا، پارامترهاي پيشين شبكه، گراديان مقادير خطا و نرخ يادگيري مستقل براي هر پارامتر شبكه، مقادير جديدي از نرخ يادگيري را جهت بروزرساني پارامترهاي مدل با استفاده از تنها دو پلّه SGD توليد مي‌كند. از ديگر مزيّت‌هاي شبكه‌ پيشنهادي مي‌توان به انتخاب ابعاد متغيّر فيلتر با استفاده از تكنيك درونيابي دو-سويه جهت سازگاري هرچه بيشتر فيلتر‌‌ها با ابعاد هدف اشاره كرد. اين رويكرد در كنار انتخاب مقادير متفاوت از نرخ يادگيري با استفاده از تكنيك فرا-يادگيرندگي نتايج مطلوبي را بر روي ديتاست GOT-10k كه به عنوان يكي از جديدترين و چالشي‌ترين ديتاست‌هاي حال حاضر است، نتيجه مي‌دهد. حاصل اين پژوهش، رديابي با سرعت 26.47 فريم بر ثانيه و mAO به عنوان معيار اصلي برابر با 0.727 مي‌باشد كه عملكرد بسيار مطلوبي در كاربردهاي بلادرنگ با بروزررساني آنلاين است.

تاريخ ورود اطلاعات

1401/09/06

عنوان به انگليسي

Visual Object Tracking Using Meta-Learning Techniques

تاريخ بهره برداري

11/13/2023 12:00:00 AM

دانشجوي وارد كننده اطلاعات

محمد رضايي راد

Name: محمد رضايي راد
Author: محمد رضايي راد

چكيده به لاتين

Visual object tracking as one of the most critical fields in computer vision has attracted lots of attentions to address challenges a tracker encountered during inference. According to the necessity of real-time functionality in most real word tracking applications, training procedure needs applying some advanced techniques to increase the tracker robustness. Model parameters updating in inference stage could be considered as a practical method to improve model-target compatibility which results in higher accuracy. Generally, in convenient model updating methods, whereas they achieve better performance than fixed models, the trained model will not work correctly on future frames. Choosing a highly efficient learning rate as a key hyper parameter in all learning algorithms has wasted much time and cost to be set. In training procedure, learning rate is defined to determine the amount of changes in parameters to rise the convergence speed. Therefore, incorrect values may lead to slow convergence speed or even divergence. Besides, setting the same learning rate for all parameters due to the different roles of each parameter in different filters and layers will not show a great performance. meta-learning with the aim of learning how to learn, tries to rely on future frames as if returns much higher performance than others. In this thesis, a trainable recurrent LSTM module is developed to find the best parameterwise learning rates in each updating interval. The proposed module as an offline trainable extension receives the four parameter groups, losses, gradients, previous parameters and previous learning rates and produces new values in just two gradient steps. In addition, the proposed method with using variable filter size based on two-way interpolation tries to improve model-target compatibility. Changeable filters besides parameter-wise learning rates achieves an acceptable result on GOT-10k Benchmark as one of the newest and challenging datasets. The output of proposed method is 26.47 fps and 0.727 mAO as the fairest measurement metrics.

كليدواژه هاي فارسي

رديابي , فرا-يادگيرندگي , بروزر رساني انلاين , نرخ يادگيري , فيلتر كانولوشني

كليدواژه هاي لاتين

Object Tracking , Meta-Learning , Online Updating , Mohammad Rezaiy Raad

Author

Mohammad Rezaiy Raad

SuperVisor

dr. Shahriar Baradaran Shokouhi

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=27415&Field=0&DTC=6