شماره ركورد
34278
پديد آورنده
سعيد عباس پور
عنوان
تشخيص و رديابي هم زمان چندين هدف در تصاوير ويديويي به وسيله شبكه هاي عصبي با رويكرد يادگيري عميق
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
مهندسي برق مخابرات سيستم
سال تحصيل
1401
تاريخ دفاع
1404/06/30
استاد راهنما
دكتر سيد علي اصغر بهشتي شيرازي
استاد مشاور
ندارم
دانشكده
مهندسي برق
چكيده
اين پايان نامه به مسئله چالش برانگيز رديابي چند شيء (MOT) در تصاوير ويديويي با استفاده از شبكه هاي عصبي با رويكرد يادگيري عميق ميپردازد. هدف اصلي MOT، شناسايي و رديابي پيوسته اشياء متعدد در يك توالي ويديويي، حتي در شرايط پيچيده مانند انسداد، تغييرات ظاهري و حركات غيرخطي است. با وجود پيشرفت هاي اخير در روش هاي مبتني بر يادگيري عميق، هم چنان چالش هايي نظير ناپايداري در رديابي بلند مدت و كارايي محاسباتي در سناريو هاي شلوغ وجود دارد.
در اين پژوهش، يك روش پيشنهادي جديد با نام MemFlowMOTR معرفي ميشود كه با هدف بهبود دقت و كارايي رديابي چند شيء طراحي شده است. MemFlowMOTR بر پايه مدل MeMOTR ساخته شده و با بهره گيري از سه ايده نوآورانه به چالش هاي موجود پاسخ ميدهد. استفاده از اطلاعات جريان نوري براي پيش بيني حركت اشياء و بهبود پايداري رديابي در سناريوهاي با انسداد يا حركت سريع ، طراحي يك مكانيزم خوشه بندي توجه براي تمركز مدل بر نواحي كليدي تصوير كه دقت شناسايي و تطبيق اشياء را افزايش ميدهد ، و كاهش پيچيدگي محاسباتي از طريق توجه تنك كه امكان پردازش سريع تر و مقياس پذيري بهتر را فراهم ميكند.
روش پيشنهادي MemFlowMOTR با استفاده از ديتاست هاي استاندارد MOT17، DanceTrack، ارزيابي شده و نتايج آن با مدل پايه MeMOTR و مدل پيشرفته SambaMOTR مقايسه شده است. نتايج نشان مي دهند كه MemFlowMOTR بهبود هايي در معيار هاي كليدي مانند HOTA، AssA و DetA به ميزان 3-5 درصد نسبت به MeMOTR ارائه ميدهد و عملكردي قابل رقابت با SambaMOTR دارد. به عنوان مثال، بر روي ديتاست MOT17، MemFlowMOTR به MOTA برابر با 73.5 درصد دست يافت كه نسبت به MeMOTR (72.8 درصد) و SambaMOTR (72.9 درصد) بهبود نشان مي دهد. اين پژوهش نشان مي دهد كه تركيب مؤثر اطلاعات زماني و مكاني و بهينه سازي محاسبات توجه، ميتواند به طور قابل توجهي عملكرد سيستم هاي رديابي چند شيء مبتني بر يادگيري عميق را بهبود بخشد.
تاريخ ورود اطلاعات
1404/09/24
عنوان به انگليسي
Simultaneous detection and tracking of multiple targets in video images using neural networks with a deep learning approach
تاريخ بهره برداري
12/22/2025 12:00:00 AM
دانشجوي وارد كننده اطلاعات
سعيد عباس پور
چكيده به لاتين
This thesis addresses the challenging problem of multi-object tracking (MOT) in video images using neural networks with a deep learning approach. The main goal of MOT is to continuously identify and track multiple objects in a video sequence, even under complex conditions such as occlusion, appearance changes, and nonlinear motion. Despite recent advances in deep learning-based methods, there are still challenges such as instability in long-term tracking and computational efficiency in crowded scenarios.
In this study, a new proposed method named MemFlowMOTR is introduced, which is designed to improve the accuracy and efficiency of multi-object tracking. MemFlowMOTR is built on the MeMOTR model and addresses the existing challenges by utilizing three innovative ideas. Using optical flow information to predict object motion and improve tracking stability in occlusion or fast-moving scenarios, designing an attention clustering mechanism to focus the model on key image regions that increase object recognition and matching accuracy, and reducing computational complexity through sparse attention that enables faster processing and better scalability.
The proposed MemFlowMOTR method is evaluated using the standard MOT17, DanceTrack, datasets, and its results are compared with the base MeMOTR model and the advanced SambaMOTR model. The results show that MemFlowMOTR provides improvements in key metrics such as HOTA, AssA, and DetA by 3-5% over MeMOTR and has a performance that is competitive with SambaMOTR. For example, on the MOT17 dataset, MemFlowMOTR achieved a MOTA of 73.5%, which is an improvement over MeMOTR (72.8%) and SambaMOTR (72.9%). This research shows that effectively combining temporal and spatial information and optimizing attentional computations can significantly improve the performance of deep learning-based multi-object tracking systems.
كليدواژه هاي فارسي
رديابي چند شيء , جريان نوري , خوشه بندي توجه , توجه تنك , انسداد
كليدواژه هاي لاتين
Multi-object tracking , Optical flow , Attention clustering , spars attention , occlusion
Author
saeed abbaspour
SuperVisor
dr seyed ali asghar beheshti shirazi