شماره ركورد
28519
پديد آورنده
محمد فرهمند
عنوان
بهكارگيري الگوهاي زماني در تعقيب انتها به انتهاي اشياء با استفاده از مبدلها
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
مهندسي كامپيوتر
سال تحصيل
1400
تاريخ دفاع
1402/4/20
استاد راهنما
دكتر محمدرضا محمدي
دانشكده
مهندسي كامپيوتر
چكيده
با معرفي معماري DETR، مدلي مبتني بر شبكههاي كانولوشني و مبدلها، تحقيقات در زمينه يادگيري انتها به انتهاي مسئله تعقيب اشياء با طيف تازهاي از مقالات مواجه شد. اين پژوهشها با استفاده از اين معماري كه براي حل مسائل پيشبيني مجموعهها قابل استفاده است، روشهاي تازهاي براي حل مسئله تعقيب اشياء چندگانه معرفي كردند كه بر خلاف روشهاي كلاسيك، بدون استفاده از اجزاي دستساز و تحت يك شبكه عصبي واحد، ميتوانند اين مسئله را مدلسازي كنند. حركت به سوي اين مدلها در اكثر قريب به اتفاق زمينههاي تحقيقاتي به پيدايش مدلهايي سريعتر و دقيقتر از مدلهاي كلاسيك منجر شده است. اما روشهاي انتها به انتها هنوز در مسئله تعقيب اشياء از رقباي كلاسيك خود پيشي نگرفتهاند. با الهامگيري از كليديترين تحقيقات انجامشده در مدلهاي كلاسيك اين مسئله، در اين پژوهش اين فرضيه را مطرح كرديم كه اين ناكارآمدي به عدم استفاده موثر اين مدلها از ويژگيهاي زماني باز ميگردد. در جريان اين پژوهش، با معرفي مدلي نوين با ميدان ديد قابل تنظيم و توسعهيافته، اثر اين قابليت تازه را بر دقت مدل بررسي كرده و با بار محاسباتي اضافهشده مقايسه كرديم و دريافتيم كه به رغم افزايش دقت مدل (0.5٪ از منظر معيار IDF1 و 0.3٪ از منظر معيار MOTA) با گسترش ميدان ديد زماني، بار محاسباتي با نرخ بيشتري افزايش يافت. در ادامه، با معرفي راهكارهايي براي ادغام ويژگيهاي استخراجي از فريمهاي متوالي و فشردهسازي آنها، به سطوح عملكردي بهتري از مدل پايه و با بار محاسباتي كمتر دست يافتيم. در انتهاي بررسيهاي اين پژوهش، به منظور درك بهتر كاركرد دروني اين معماري در مسئله تعقيب اشياء، با مصورسازي مكانيزم توجه در لايههاي كدگذار و كدگشاي مبدل، به يك درك اوليه از رفتار مدل و نحوه استنتاج آن دست يافته و بر پايه آن مسيرهاي تحقيقاتي آتي اين زمينه را پيشبيني كرديم كه در انتهاي اين پژوهش به تفصيل درباره آنها بحث شده است.
تاريخ ورود اطلاعات
1402/04/24
عنوان به انگليسي
Exploiting Temporal Patterns in End-to-End Object Tracking with Transformers
تاريخ بهره برداري
7/10/2024 12:00:00 AM
دانشجوي وارد كننده اطلاعات
محمد فرهمند
چكيده به لاتين
With the introduction of the DETR architecture, a model based on convolutional networks and transformers, end-to-end object tracking research experienced a renaissance. Based on this architecture, which can be used to solve any set prediction problems, studies proposed novel solutions for the multi-object tracking problem, which, unlike classical methods, do not require hand-crafted components and can model this problem with a single neural network. Moving towards end-to-end models has usually led to the emergence of faster and more accurate models than classical approaches. However, end-to-end methods have not yet surpassed their classical competitors in object tracking. In this research project, influenced by the most significant findings in classic methods, we hypothesize that this impairment is due to the non-effective use of temporal features. In the course of this study, we first introduced a novel model with an adjustable temporal field of view, resulting in a 0.5% increase in IDF1 and a 0.3% increase in MOTA, but a steeper increase in computational cost. We then measured the effect of adjusting this hyperparameter on the accuracy of the model . Next, we proposed several aggregation methods for integrating visual features extracted from consecutive frames, with which we then achieved better performance levels than the baseline model, with a reduced computational cost. Finally, in order to better understand the inner workings of this architecture, specifically in this problem, we tried to reason about the behavior of the model, by illustrating the attention mechanism in the encoder and decoder layers. These studies revealed new research horizons that are discussed in detail at the end of this thesis.
كليدواژه هاي فارسي
تعقيب اشياء , تشخيص اشياء , مبدلها
كليدواژه هاي لاتين
Object Tracking , Object Detection , Transformers
Author
Mohammad Farahmand
SuperVisor
Dr. Mohammad Reza Mohammadi