-
شماره ركورد
27415
-
پديد آورنده
محمد رضايي راد
-
عنوان
استفاده از تكنيكهاي فرا-يادگيرندگي در رديابي اشياء
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
مهندسي برق
-
سال تحصيل
1397
-
تاريخ دفاع
1401/8/22
-
استاد راهنما
دكتر شهريار برادران شكوهي
-
دانشكده
مهندسي برق
-
چكيده
رديابي اشياء به عنوان يكي از بخشهاي اصلي بينايي كامپيوتر همواره توّجه بسياري از محقّقين اين حوزه را جهت رفع چالشهاي ان به خود جلب كرده است. رديابي هدف به دليل ماهيّت بلادرنگ آن در سناريوهاي دنياي حقيقي، نيازمند تدابير و تكنيكهاي ويژهاي در فرايند اموزش مدل جهت مقاومت هرچه بيشتر آن در مواجهه با چالشهاي پيشرو ميباشد. استفاده از رويكردهاي بروزرساني مدل در حين انجام عمليات رديابي جهت سازگاري هرچه بيشتر مدل با تغييرات سوژه و محيط را ميتوان به عنوان يكي از موثّرترين رويكردها نام برد. در متدهاي معمول از بروزرساني مدل عموماً از دادههاي پيشين فرايند به عنوان نمونههاي جديد اموزش استفاده ميشود كه اتّخاذ اين روش اگرچه ميتواند عملكرد بهتري نسبت به مدل ثابت از خود نشان دهد امّا مدل را براي مواجهه با چالشهاي پيشرو به درستي آماده نميكند.
تعيين بهترين مقدار از نرخ يادگيري به عنوان يكي از ابر-پارامترهاي كليدي در مسائل يادگيري، همواره وقت و هزينه بالايي را متحمّل متخصّصان اين حوزه كردهاست. نرخ يادگيري با هدف تعيين ميزان تغييرات پارامترهاي مدل در فرايند آموزش، بصورت غيرمحاسباتي تعيين ميشود كه عدم انتخاب صحيح آن منجر به كاهش سرعت همگرايي مدل و يا سردرگم شدن آن در اطراف نقطه بهينه ميشود. از طرف ديگر، انتخاب مقدار يكسان براي تمام پارامترهاي مدل در فرايند اموزش با توجه به كاركرد متفاوت هر پارامتر در مكانهاي مختلف از هر فيلتر و لايههاي گوناگون نميتواند بهترين عملكرد را نتيجه دهد. فرا-يادگيرندگي با هدف يادگيري فرايند يادگيري ميتواند با اتّكا بر دادههاي آينده، عملكردي بهتر از مدل را به نمايش گذارد. در مسئله فرا-يادگيرندگي، فرايند آموزش خود نيز شامل زير-فرايندهاي تست و آموزش ميباشد كه بتواند بهترين امادگي را براي مواجهه با چالشهاي پيشروي ردياب فراهم سازد. در اين پژوهش، يك ماژول جانبي بازگشتي LSTM جهت بروزرساني مدل در بازههاي مشخص پيشنهاد شدهاست. اين ماژول كه بصورت آفلاين در فرايند اموزش با اتّكا بر فريمهاي اينده آموزش ميبيند، در فرايند تست با دريافت مقادير خطا، پارامترهاي پيشين شبكه، گراديان مقادير خطا و نرخ يادگيري مستقل براي هر پارامتر شبكه، مقادير جديدي از نرخ يادگيري را جهت بروزرساني پارامترهاي مدل با استفاده از تنها دو پلّه SGD توليد ميكند.
از ديگر مزيّتهاي شبكه پيشنهادي ميتوان به انتخاب ابعاد متغيّر فيلتر با استفاده از تكنيك درونيابي دو-سويه جهت سازگاري هرچه بيشتر فيلترها با ابعاد هدف اشاره كرد. اين رويكرد در كنار انتخاب مقادير متفاوت از نرخ يادگيري با استفاده از تكنيك فرا-يادگيرندگي نتايج مطلوبي را بر روي ديتاست GOT-10k كه به عنوان يكي از جديدترين و چالشيترين ديتاستهاي حال حاضر است، نتيجه ميدهد. حاصل اين پژوهش، رديابي با سرعت 26.47 فريم بر ثانيه و mAO به عنوان معيار اصلي برابر با 0.727 ميباشد كه عملكرد بسيار مطلوبي در كاربردهاي بلادرنگ با بروزررساني آنلاين است.
-
تاريخ ورود اطلاعات
1401/09/06
-
عنوان به انگليسي
Visual Object Tracking Using Meta-Learning Techniques
-
تاريخ بهره برداري
11/13/2023 12:00:00 AM
-
دانشجوي وارد كننده اطلاعات
محمد رضايي راد
-
چكيده به لاتين
Visual object tracking as one of the most critical fields in computer vision has attracted lots of attentions to address challenges a tracker encountered during inference. According to the necessity of real-time functionality in most real word tracking applications, training procedure needs applying some advanced techniques to increase the tracker robustness. Model parameters updating in inference stage could be considered as a practical method to improve model-target compatibility which results in higher accuracy. Generally, in convenient model updating methods, whereas they achieve better performance than fixed models, the trained model will not work correctly on future frames.
Choosing a highly efficient learning rate as a key hyper parameter in all learning algorithms has wasted much time and cost to be set. In training procedure, learning rate is defined to determine the amount of changes in parameters to rise the convergence speed. Therefore, incorrect values may lead to slow convergence speed or even divergence. Besides, setting the same learning rate for all parameters due to the different roles of each parameter in different filters and layers will not show a great performance. meta-learning with the aim of learning how to learn, tries to rely on future frames as if returns much higher performance than others. In this thesis, a trainable recurrent LSTM module is developed to find the best parameterwise learning rates in each updating interval. The proposed module as an offline trainable extension receives the four parameter groups, losses, gradients, previous parameters and previous learning rates and produces new values in just two gradient steps. In addition, the proposed method with using variable filter size based on two-way interpolation tries to improve model-target compatibility.
Changeable filters besides parameter-wise learning rates achieves an acceptable result on GOT-10k Benchmark as one of the newest and challenging datasets. The output of proposed method is 26.47 fps and 0.727 mAO as the fairest measurement metrics.
-
كليدواژه هاي فارسي
رديابي , فرا-يادگيرندگي , بروزر رساني انلاين , نرخ يادگيري , فيلتر كانولوشني
-
كليدواژه هاي لاتين
Object Tracking , Meta-Learning , Online Updating , Mohammad Rezaiy Raad
-
Author
Mohammad Rezaiy Raad
-
SuperVisor
dr. Shahriar Baradaran Shokouhi
-
لينک به اين مدرک :