-
شماره ركورد
30499
-
پديد آورنده
اميرمهدي نيكوكاران
-
عنوان
تشخيص اشيا در ويديو با استفاده از مبدلها
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
مهندسي كامپيوتر گرايش هوش مصنوعي و رباتيكز
-
سال تحصيل
1399
-
تاريخ دفاع
1402/8/30
-
استاد راهنما
دكتر محمدرضا محمدي
-
دانشكده
مهندسي كامپيوتر
-
چكيده
اكثر اشيايابهاي ويديويي موجود از استخراجكنندەهاي ويژگي استفاده ميكنند كه هيچ آگاهي نسبت به بعد زمان ندارند و نميتوانند ويژگيهاي مفيد زماني را استخراج كنند. آنها صرفاً از ويژگيهايي استفاده ميكنند كه ماهيت مكاني اشيا را در خود حفظ كرده است و ماهيت زماني و تغيير اشيا در طول زمان را در نظر نميگيرند. در اين كار، ما TransVOD Lite را به عنوان اشياياب پايه به كار گرفتيم و با تغيير اسخراجكننده ويژگي آن از مبدل Swin به مبدل Swin ويديويي توانستيم ويژگيهايي استخراج كنيم كه نسبت به ماهيت مكاني و زماني آ گاهي دارند و ويژگيهاي غنيتري را در اختيار اشياياب ويديويي قرار ميدهند. همچنين براي سبك كردن معماري مبدل Swin ويديويي و تنظيم دقيق آن به شكل مؤثر به سراغ وفقدهندەها رفتيم. از وفقدهنده كنارگذر كانولوشني (Convpass) كه اولين وفقدهنده معرفيشده براي مبدلهاي بينايي است، الگو گرفتيم و كنارگذر كانولوشني سەبعدي (Convpass3d) را براي اولين بار براي مبدل Swin ويديويي ارائه كرديم. در اين كار يك مجموعه داده جديد از باغچه پرندگان IPM توليد كرديم كه چالشهاي خوبي در حوزه تشخيص اشيا در ويديو به ويژه براي اشياي كوچك دارد. نتايج آزمايشها حاكي از بهبود عملكرد مبدل Swin ويديويي نسبت به مبدل Swin است. همچنين استفاده از Convpass3d با حفظ نسبي عملكرد توانست با كاهش مصرف حافظه و پيچيدگيهاي محاسباتي فرايند آموزش را نيز تسريع كند.
-
تاريخ ورود اطلاعات
1402/11/29
-
عنوان به انگليسي
Video Object Detection with Transformers
-
تاريخ بهره برداري
1/1/1900 12:00:00 AM
-
دانشجوي وارد كننده اطلاعات
اميرمهدي نيكوكاران
-
چكيده به لاتين
Many video object detectors cannot extract useful temporal features as their feature extractors have no knowledge of the time dimension. They only use features that preserve the spatial nature of objects and do not consider the temporal nature and change of objects over time. To address this issue, we used TransVOD Lite as our base object detector and replaced its Swin transformer feature extractor with a video Swin transformer, which enabled us to extract spatial-temporal aware features. We adapted from the convolution bypasses adapter (Convpass), which is the first introduced adapter for vision transformers, and also simplified the Swin video transformer architecture using adapters, specifically the 3D convolution bypasses (Convpass3d), which we introduced for the first time for the video Swin transformer. Our experiments involved a new dataset from the IPM bird garden, which posed significant challenges, particularly for small object detection in video. Our results indicate that the performance of the video Swin transformer improved compared to the Swin transformer, and using Convpass3d helped speed up the training process while maintaining performance by reducing memory consumption and computational complexity.
-
كليدواژه هاي فارسي
مبدل Swin ويديويي , TransVOD Lite , وفقدهنده , كنارگذر كانولوشني سهبعدي (Convpass3d)
-
كليدواژه هاي لاتين
Video Swin Transformer , TransVOD Lite , Adapter , Convpass3d
-
Author
Amir Mahdi Nikukaran
-
SuperVisor
Dr. Mohammad Reza Mohammadi
-
لينک به اين مدرک :