شماره ركورد
33196
پديد آورنده
محمد حاجي زاده صفار
عنوان
تشخيص بيدرنگ اشيا در ويديو بر روي دستگاههاي توكار با استفاده از شبكههاي عصبي عميق
مقطع تحصيلي
دكتري تخصصي (PhD)
رشته تحصيلي
مهندسي كامپيوتر- هوش مصنوعي و رباتيك
سال تحصيل
1396
تاريخ دفاع
1403/11/8
استاد راهنما
عادل تركمان رحماني
استاد مشاور
محمود فتحي
دانشكده
دانشكده مهندسي كامپيوتر
چكيده
تشخيص اشيا، به معناي تعيين دسته و مكان اشيا موجود در يك تصوير يا ويديو است. اين موضوع يكي از قدمهاي پايهاي قابلتعريف در بسياري از فعاليتهاي سطح بالاي حوزه بينايي ماشين مانند شناسايي عمل، تجزيه اجزاي صحنه، توصيف صحنه، خلاصهسازي و فهم معنايي است. بسته به استفاده از تصوير يا ويديو، تشخيص اشيا به دو زير بخش با عنوان تشخيص اشيا موجود در تصوير و تشخيص اشيا موجود در ويديو تقسيم ميشود. بهبود دقت، سرعت و توان پردازشي همواره موردتوجه محققان قرار گرفته است و بخش زيادي از آن معطوف به توان پردازشي پردازندههاي گرافيكي و دستگاههاي مبتني بر سرورهاي قدرتمند است. راهكارهاي مبتني بر پردازندههاي گرافيكي و توان پردازشي بالا، همواره كاربردهاي متنوع و زيادي در دنياي واقعي دارند. درحاليكه در سالهاي اخير، كاربردهاي زيادي از تحليلهاي هوشمند بر روي ويديو بهصورت محاسبات مبتني بر لبه و بر روي دستگاههاي توكار ارائه شدهاند. توان پردازشي محدود، محدوديت در حجم مدل براي قرارگرفتن در حافظه و محدوديت در توان مصرفي سختافزار، از جمله پيچيدگيهاي اين حوزه هستند. در اين رساله روشي كارا مبتني بر شبكههاي عصبي عميق جهت تشخيص اشيا موجود در ويديو، بهصورت بيدرنگ (سرعت پردازشي بالاتر از 15 فريم بر ثانيه) و با توان پردازشي قابلاجرا بر روي دستگاههاي توكار ارائه شده است. براي داشتن يك روش تشخيص اشيا ويديويي قوي، ابتدا بايد يك روش تشخيص اشيا قوي در تصاوير وجود داشته باشد تا بتوان آن را با استفاده از تكنيكهايي براي استفاده در ويديو تعميم داد. در راستاي بهبود تشخيص اشيا بر روي تصاوير، در اين پژوهش ابتدا يك بدنه اصلي جديد بر پايه MobileNet و همراه با اصلاحاتي از جمله عملگرهاي همپيچشي جداييپذير عمقي و ارتباطات پرشي بنام MobileDenseNet ارائه شده است. در ادامه يك ساختار گردن جديد بر پايه معماري هرمي بنام FCPNLite طراحي و پيادهسازي شد كه شبكه پايه را براي استخراج ويژگي از تصاوير ورودي تقويت كرده است. همچنين براي به اشتراك گذاشتن وزنها در قسمت سر نيز ايده نيمه اشتراكي بودن وزنها پيادهسازي شد كه باعث افزايش دقت شده است. در نهايت شكل توليد و مشخصات جعبههاي اوليه هم مقداري تغيير كرده است و براي اشيا كوچكتر موجود در دادگان و در كل دقت نهايي بهبود ايجاد كرده است. با انجام اين موارد، تشخيص اشيا بر روي تصاوير در اين پژوهش به دقت 8/24 درصد بر روي مجموعه دادگان COCO رسيد كه 8/0 درصد نسبت به ساير مقالات بهتر شد. علاوه بر اين، با معرفي يك سلول بازگشتي جديد به نام GCRU براي انتشار ويژگي در طول زمان و تغييرات ديگري از جمله استفاده از شبكههاي دوگانه و افزايش بازه فريمهاي گذشته، به دقت 5/67 درصد و سرعت 62 فريم بر ثانيه با معماري MobileDenseNet و دقت 7/68 درصد و سرعت 52 فريم بر ثانيه با معماري EfficientNet بر روي مجموعه دادگان ImageNetVID رسيديم كه بهترين عملكرد در بين راهكارهاي مشابه در اين حوزه است و 4/0 درصد بالاتر از بهترين راهكار مشابه است.
تاريخ ورود اطلاعات
1404/01/16
عنوان به انگليسي
Real-time Video Object Detection on Embedded Devices by Using Deep Neural Networks
تاريخ بهره برداري
1/1/1900 12:00:00 AM
دانشجوي وارد كننده اطلاعات
محمد حاجي زاده صفار
چكيده به لاتين
Object Detection is the process of classification and localization of objects in an image or video. This is a fundamental step in many high-level activities in the field of machine vision, such as activity recognition, scene analysis, scene description, summarization and semantic understanding. Depending on the use of the image or video, object detection is divided into two sub-sections called object detection in images and object detection in videos. Improving accuracy, speed and processing power has always been the focus of researchers, a large part of which is focused on the processing power of GPUs and devices based on powerful servers. Solutions based on GPUs and high processing power have many diverse applications in the real world. While in recent years, many applications of intelligent analytics on video have been presented in the form of edge-based computing and on embedded devices. Limited processing power, limitations on the size of the model to be placed in memory, and limitations on hardware power consumption are among the complexities of this field. In this thesis, an efficient method is presented based on deep neural networks to detect objects in video, in real time (processing speed higher than 15 frames per second) and with processing power that can be used on embedded devices. To have a robust video object detection method, first there must be a robust object detection method in images so that it can be generalized using techniques for use in video. In order to improve object detection in images, this research first presents a new backbone based on MobileNet with modifications such as depth separable convolutional operators and skip connections called MobileDenseNet. Next, a new neck structure based on pyramidal architecture called FCPNLite was designed and implemented, which has strengthened the network for feature extraction from input images. Also, the idea of half-sharing weights was implemented to share weights in the head, which has increased accuracy. Finally, the specifications of the initial boxes have also changed, which has improved for smaller objects in the data and overall final accuracy. By doing these things, the object detection in images in this research achieved an accuracy of 24.8% on COCO dataset, which is 0.8% better than other papers. In addition, by introducing a new recurrent cell called GCRU for feature propagation over time and other changes such as using dual networks and increasing the interval of previous frames, we achieved 67.5% accuracy and 62 frames per second on the MobileDenseNet architecture and 68.7% accuracy and 52 frames per second on the EfficientNet architecture on ImageNet VID dataset, which is the best performance among similar solutions in this field and 0.4% higher than the best similar solution.
كليدواژه هاي فارسي
تشخيص اشيا , پردازش ويديو , پردازش بيدرنگ
كليدواژه هاي لاتين
object detection , video processing , Real-time Processing
Author
Mohammad Hajizade Safar
SuperVisor
Dr.Torkaman