سعيد عباس پور

عنوان

تشخيص و رديابي هم زمان چندين هدف در تصاوير ويديويي به وسيله شبكه ‌هاي عصبي با رويكرد يادگيري عميق

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

مهندسي برق مخابرات سيستم

سال تحصيل

1401

تاريخ دفاع

1404/06/30

استاد راهنما

دكتر سيد علي اصغر بهشتي شيرازي

استاد مشاور

ندارم

دانشكده

مهندسي برق

چكيده

اين پايان ‌نامه به مسئله چالش ‌برانگيز رديابي چند شيء (MOT) در تصاوير ويديويي با استفاده از شبكه ‌هاي عصبي با رويكرد يادگيري عميق مي‌پردازد. هدف اصلي MOT، شناسايي و رديابي پيوسته اشياء متعدد در يك توالي ويديويي، حتي در شرايط پيچيده مانند انسداد، تغييرات ظاهري و حركات غيرخطي است. با وجود پيشرفت ‌هاي اخير در روش ‌هاي مبتني بر يادگيري عميق، هم چنان چالش‌ هايي نظير ناپايداري در رديابي بلند مدت و كارايي محاسباتي در سناريو هاي شلوغ وجود دارد. در اين پژوهش، يك روش پيشنهادي جديد با نام MemFlowMOTR معرفي مي‌شود كه با هدف بهبود دقت و كارايي رديابي چند شيء طراحي شده است. MemFlowMOTR بر پايه مدل MeMOTR ساخته شده و با بهره ‌گيري از سه ايده نوآورانه به چالش ‌هاي موجود پاسخ مي‌دهد. استفاده از اطلاعات جريان نوري براي پيش ‌بيني حركت اشياء و بهبود پايداري رديابي در سناريوهاي با انسداد يا حركت سريع ، طراحي يك مكانيزم خوشه ‌بندي توجه براي تمركز مدل بر نواحي كليدي تصوير كه دقت شناسايي و تطبيق اشياء را افزايش مي‌دهد ، و كاهش پيچيدگي محاسباتي از طريق توجه تنك كه امكان پردازش سريع ‌تر و مقياس ‌پذيري بهتر را فراهم مي‌كند. روش پيشنهادي MemFlowMOTR با استفاده از ديتاست‌ هاي استاندارد MOT17، DanceTrack، ارزيابي شده و نتايج آن با مدل پايه MeMOTR و مدل پيشرفته SambaMOTR مقايسه شده است. نتايج نشان مي ‌دهند كه MemFlowMOTR بهبود هايي در معيار هاي كليدي مانند HOTA، AssA و DetA به ميزان 3-5 درصد نسبت به MeMOTR ارائه مي‌دهد و عملكردي قابل رقابت با SambaMOTR دارد. به عنوان مثال، بر روي ديتاست MOT17، MemFlowMOTR به MOTA برابر با 73.5 درصد دست يافت كه نسبت به MeMOTR (72.8 درصد) و SambaMOTR (72.9 درصد) بهبود نشان مي ‌دهد. اين پژوهش نشان مي ‌دهد كه تركيب مؤثر اطلاعات زماني و مكاني و بهينه ‌سازي محاسبات توجه، مي‌تواند به طور قابل توجهي عملكرد سيستم ‌هاي رديابي چند شيء مبتني بر يادگيري عميق را بهبود بخشد.

تاريخ ورود اطلاعات

1404/09/24

عنوان به انگليسي

Simultaneous detection an‎d tracking of multiple targets in video images using neural networks with a deep learning approach

تاريخ بهره برداري

12/22/2025 12:00:00 AM

دانشجوي وارد كننده اطلاعات

سعيد عباس پور

Name: سعيد عباس پور
Author: سعيد عباس پور

چكيده به لاتين

This thesis addresses the challenging problem of multi-object tracking (MOT) in video images using neural netwo‎rks with a deep learning approach. The main goal of MOT is to continuously identify an‎d track multiple objects in a video sequence, even under complex conditions such as occlusion, appearance changes, an‎d nonlinear motion. Despite recent advances in deep learning-based methods, there are still challenges such as instability in long-term tracking an‎d computational efficiency in crowded scenarios. In this study, a new proposed method named MemFlowMOTR is introduced, which is designed to improve the accuracy an‎d efficiency of multi-object tracking. MemFlowMOTR is built on the MeMOTR model an‎d addresses the existing challenges by utilizing three innovative ideas. Using optical flow info‎rmation to predict object motion an‎d improve tracking stability in occlusion o‎r fast-moving scenarios, designing an attention clustering mechanism to focus the model on key image regions that increase object recognition an‎d matching accuracy, an‎d reducing computational complexity through sparse attention that enables faster processing an‎d better scalability. The proposed MemFlowMOTR method is eva‎luated using the stan‎dard MOT17, DanceTrack, datasets, an‎d its results are compared with the base MeMOTR model an‎d the advanced SambaMOTR model. The results show that MemFlowMOTR provides improvements in key metrics such as HOTA, AssA, an‎d DetA by 3-5% over MeMOTR an‎d has a perfo‎rmance that is competitive with SambaMOTR. Fo‎r example, on the MOT17 dataset, MemFlowMOTR achieved a MOTA of 73.5%, which is an improvement over MeMOTR (72.8%) an‎d SambaMOTR (72.9%). This research shows that effectively combining tempo‎ral an‎d spatial info‎rmation an‎d optimizing attentional computations can significantly improve the perfo‎rmance of deep learning-based multi-object tracking systems.

كليدواژه هاي فارسي

رديابي چند شيء , جريان نوري , خوشه ‌بندي توجه , توجه تنك , انسداد

كليدواژه هاي لاتين

Multi-object tracking , Optical flow , Attention clustering , spars attention , occlusion

Author

saeed abbaspour

SuperVisor

dr seyed ali asghar beheshti shirazi

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=34278&Field=0&DTC=6