اميرمهدي نيكوكاران

عنوان

تشخيص اشيا در ويديو با استفاده از مبدل‌ها

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

مهندسي كامپيوتر گرايش هوش مصنوعي و رباتيكز

سال تحصيل

1399

تاريخ دفاع

1402/8/30

استاد راهنما

دكتر محمدرضا محمدي

دانشكده

مهندسي كامپيوتر

چكيده

اكثر اشياياب‌هاي ويديويي موجود از استخراج‌كنندە‌هاي ويژگي استفاده مي‌كنند كه هيچ آگاهي نسبت به بعد زمان ندارند و نمي‌توانند ويژگي‌هاي مفيد زماني را استخراج كنند. آن‌ها صرفاً از ويژگي‌هايي استفاده مي‌كنند كه ماهيت مكاني اشيا را در خود حفظ كرده است و ماهيت زماني و تغيير اشيا در طول زمان را در نظر نمي‌گيرند. در اين كار، ما TransVOD Lite را به عنوان اشياياب پايه به كار گرفتيم و با تغيير اسخراج‌كننده ويژگي آن از مبدل Swin به مبدل Swin ويديويي توانستيم ويژگي‌هايي استخراج كنيم كه نسبت به ماهيت مكاني و زماني آ گاهي دارند و ويژگي‌هاي غني‌تري را در اختيار اشياياب ويديويي قرار مي‌دهند. همچنين براي سبك كردن معماري مبدل Swin ويديويي و تنظيم دقيق آن به شكل مؤثر به سراغ وفق‌دهندە‌ها رفتيم. از وفق‌دهنده كنارگذر كانولوشني (Convpass) كه اولين وفق‌دهنده معرفي‌شده براي مبدل‌هاي بينايي است، الگو گرفتيم و كنارگذر كانولوشني سە‌بعدي (Convpass3d) را براي اولين بار براي مبدل Swin ويديويي ارائه كرديم. در اين كار يك مجموعه داده جديد از باغچه پرندگان IPM توليد كرديم كه چالش‌هاي خوبي در حوزه تشخيص اشيا در ويديو به ويژه براي اشياي كوچك دارد. نتايج آزمايش‌ها حاكي از بهبود عملكرد مبدل Swin ويديويي نسبت به مبدل Swin است. همچنين استفاده از Convpass3d با حفظ نسبي عملكرد توانست با كاهش مصرف حافظه و پيچيدگي‌هاي محاسباتي فرايند آموزش را نيز تسريع كند.

تاريخ ورود اطلاعات

1402/11/29

عنوان به انگليسي

Video Object Detection with Transformers

تاريخ بهره برداري

1/1/1900 12:00:00 AM

دانشجوي وارد كننده اطلاعات

اميرمهدي نيكوكاران

Name: اميرمهدي نيكوكاران
Author: اميرمهدي نيكوكاران

چكيده به لاتين

Many video object detectors cannot extract useful temporal features as their feature extractors have no knowledge of the time dimension. They only use features that preserve the spatial nature of objects and do not consider the temporal nature and change of objects over time. To address this issue, we used TransVOD Lite as our base object detector and replaced its Swin transformer feature extractor with a video Swin transformer, which enabled us to extract spatial-temporal aware features. We adapted from the convolution bypasses adapter (Convpass), which is the first introduced adapter for vision transformers, and also simplified the Swin video transformer architecture using adapters, specifically the 3D convolution bypasses (Convpass3d), which we introduced for the first time for the video Swin transformer. Our experiments involved a new dataset from the IPM bird garden, which posed significant challenges, particularly for small object detection in video. Our results indicate that the performance of the video Swin transformer improved compared to the Swin transformer, and using Convpass3d helped speed up the training process while maintaining performance by reducing memory consumption and computational complexity.

كليدواژه هاي فارسي

مبدل Swin ويديويي , TransVOD Lite , وفق‌دهنده , كنارگذر كانولوشني سه‌بعدي (Convpass3d)

كليدواژه هاي لاتين

Video Swin Transformer , TransVOD Lite , Adapter , Convpass3d

Author

Amir Mahdi Nikukaran

SuperVisor

Dr. Mohammad Reza Mohammadi

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=30499&Field=0&DTC=6