• شماره ركورد
    34278
  • پديد آورنده

    سعيد عباس پور

  • عنوان
    تشخيص و رديابي هم زمان چندين هدف در تصاوير ويديويي به وسيله شبكه ‌هاي عصبي با رويكرد يادگيري عميق
  • مقطع تحصيلي
    كارشناسي ارشد
  • رشته تحصيلي
    مهندسي برق مخابرات سيستم
  • سال تحصيل
    1401
  • تاريخ دفاع
    1404/06/30
  • استاد راهنما
    دكتر سيد علي اصغر بهشتي شيرازي
  • استاد مشاور
    ندارم
  • دانشكده
    مهندسي برق
  • چكيده
    اين پايان ‌نامه به مسئله چالش ‌برانگيز رديابي چند شيء (MOT) در تصاوير ويديويي با استفاده از شبكه ‌هاي عصبي با رويكرد يادگيري عميق مي‌پردازد. هدف اصلي MOT، شناسايي و رديابي پيوسته اشياء متعدد در يك توالي ويديويي، حتي در شرايط پيچيده مانند انسداد، تغييرات ظاهري و حركات غيرخطي است. با وجود پيشرفت ‌هاي اخير در روش ‌هاي مبتني بر يادگيري عميق، هم چنان چالش‌ هايي نظير ناپايداري در رديابي بلند مدت و كارايي محاسباتي در سناريو هاي شلوغ وجود دارد. در اين پژوهش، يك روش پيشنهادي جديد با نام MemFlowMOTR معرفي مي‌شود كه با هدف بهبود دقت و كارايي رديابي چند شيء طراحي شده است. MemFlowMOTR بر پايه مدل MeMOTR ساخته شده و با بهره ‌گيري از سه ايده نوآورانه به چالش ‌هاي موجود پاسخ مي‌دهد. استفاده از اطلاعات جريان نوري براي پيش ‌بيني حركت اشياء و بهبود پايداري رديابي در سناريوهاي با انسداد يا حركت سريع ، طراحي يك مكانيزم خوشه ‌بندي توجه براي تمركز مدل بر نواحي كليدي تصوير كه دقت شناسايي و تطبيق اشياء را افزايش مي‌دهد ، و كاهش پيچيدگي محاسباتي از طريق توجه تنك كه امكان پردازش سريع ‌تر و مقياس ‌پذيري بهتر را فراهم مي‌كند. روش پيشنهادي MemFlowMOTR با استفاده از ديتاست‌ هاي استاندارد MOT17، DanceTrack، ارزيابي شده و نتايج آن با مدل پايه MeMOTR و مدل پيشرفته SambaMOTR مقايسه شده است. نتايج نشان مي ‌دهند كه MemFlowMOTR بهبود هايي در معيار هاي كليدي مانند HOTA، AssA و DetA به ميزان 3-5 درصد نسبت به MeMOTR ارائه مي‌دهد و عملكردي قابل رقابت با SambaMOTR دارد. به عنوان مثال، بر روي ديتاست MOT17، MemFlowMOTR به MOTA برابر با 73.5 درصد دست يافت كه نسبت به MeMOTR (72.8 درصد) و SambaMOTR (72.9 درصد) بهبود نشان مي ‌دهد. اين پژوهش نشان مي ‌دهد كه تركيب مؤثر اطلاعات زماني و مكاني و بهينه ‌سازي محاسبات توجه، مي‌تواند به طور قابل توجهي عملكرد سيستم ‌هاي رديابي چند شيء مبتني بر يادگيري عميق را بهبود بخشد.
  • تاريخ ورود اطلاعات
    1404/09/24
  • عنوان به انگليسي
    Simultaneous detection an‎d tracking of multiple targets in video images using neural networks with a deep learning approach
  • تاريخ بهره برداري
    12/22/2025 12:00:00 AM
  • دانشجوي وارد كننده اطلاعات

    سعيد عباس پور

  • چكيده به لاتين
    This thesis addresses the challenging problem of multi-object tracking (MOT) in video images using neural netwo‎rks with a deep learning approach. The main goal of MOT is to continuously identify an‎d track multiple objects in a video sequence, even under complex conditions such as occlusion, appearance changes, an‎d nonlinear motion. Despite recent advances in deep learning-based methods, there are still challenges such as instability in long-term tracking an‎d computational efficiency in crowded scenarios. In this study, a new proposed method named MemFlowMOTR is introduced, which is designed to improve the accuracy an‎d efficiency of multi-object tracking. MemFlowMOTR is built on the MeMOTR model an‎d addresses the existing challenges by utilizing three innovative ideas. Using optical flow info‎rmation to predict object motion an‎d improve tracking stability in occlusion o‎r fast-moving scenarios, designing an attention clustering mechanism to focus the model on key image regions that increase object recognition an‎d matching accuracy, an‎d reducing computational complexity through sparse attention that enables faster processing an‎d better scalability. The proposed MemFlowMOTR method is eva‎luated using the stan‎dard MOT17, DanceTrack, datasets, an‎d its results are compared with the base MeMOTR model an‎d the advanced SambaMOTR model. The results show that MemFlowMOTR provides improvements in key metrics such as HOTA, AssA, an‎d DetA by 3-5% over MeMOTR an‎d has a perfo‎rmance that is competitive with SambaMOTR. Fo‎r example, on the MOT17 dataset, MemFlowMOTR achieved a MOTA of 73.5%, which is an improvement over MeMOTR (72.8%) an‎d SambaMOTR (72.9%). This research shows that effectively combining tempo‎ral an‎d spatial info‎rmation an‎d optimizing attentional computations can significantly improve the perfo‎rmance of deep learning-based multi-object tracking systems.
  • كليدواژه هاي فارسي
    رديابي چند شيء , جريان نوري , خوشه ‌بندي توجه , توجه تنك , انسداد
  • كليدواژه هاي لاتين
    Multi-object tracking , Optical flow , Attention clustering , spars attention , occlusion
  • Author
    saeed abbaspour
  • SuperVisor
    dr seyed ali asghar beheshti shirazi