• شماره ركورد
    33196
  • پديد آورنده

    محمد حاجي زاده صفار

  • عنوان
    تشخيص بي‌درنگ اشيا در ويديو بر روي دستگاه‌هاي توكار با استفاده از شبكه‌هاي عصبي عميق
  • مقطع تحصيلي
    دكتري تخصصي (PhD)
  • رشته تحصيلي
    مهندسي كامپيوتر- هوش مصنوعي و رباتيك
  • سال تحصيل
    1396
  • تاريخ دفاع
    1403/11/8
  • استاد راهنما
    عادل تركمان رحماني
  • استاد مشاور
    محمود فتحي
  • دانشكده
    دانشكده مهندسي كامپيوتر
  • چكيده
    تشخيص اشيا، به معناي تعيين دسته و مكان اشيا موجود در يك تصوير يا ويديو است. اين موضوع يكي از قدم‌هاي پايه‌اي قابل‌تعريف در بسياري از فعاليت‌هاي سطح بالاي حوزه بينايي ماشين مانند شناسايي عمل، تجزيه اجزاي صحنه، توصيف صحنه، خلاصه‌سازي و فهم معنايي است. بسته به استفاده از تصوير يا ويديو، تشخيص اشيا به دو زير بخش با عنوان تشخيص اشيا موجود در تصوير و تشخيص اشيا موجود در ويديو تقسيم مي‌شود. بهبود دقت، سرعت و توان پردازشي همواره موردتوجه محققان قرار گرفته است و بخش زيادي از آن معطوف به توان پردازشي پردازنده‌هاي گرافيكي و دستگاه‌هاي مبتني بر سرورهاي قدرتمند است. راهكارهاي مبتني بر پردازنده‌هاي گرافيكي و توان پردازشي بالا، همواره كاربردهاي متنوع و زيادي در دنياي واقعي دارند. درحالي‌كه در سال‌هاي اخير، كاربردهاي زيادي از تحليل‌هاي هوشمند بر روي ويديو به‌صورت محاسبات مبتني بر لبه و بر روي دستگاه‌هاي توكار ارائه شده‌اند. توان پردازشي محدود، محدوديت در حجم مدل براي قرارگرفتن در حافظه و محدوديت در توان مصرفي سخت‌افزار، از جمله پيچيدگي‌هاي اين حوزه هستند. در اين رساله روشي كارا مبتني بر شبكه‌هاي عصبي عميق جهت تشخيص اشيا موجود در ويديو، به‌صورت بي‌درنگ (سرعت پردازشي بالاتر از 15 فريم بر ثانيه) و با توان پردازشي قابل‌اجرا بر روي دستگاه‌هاي توكار ارائه شده است. براي داشتن يك روش تشخيص اشيا ويديويي قوي، ابتدا بايد يك روش تشخيص اشيا قوي در تصاوير وجود داشته باشد تا بتوان آن را با استفاده از تكنيك‌هايي براي استفاده در ويديو تعميم داد. در راستاي بهبود تشخيص اشيا بر روي تصاوير، در اين پژوهش ابتدا يك بدنه اصلي جديد بر پايه MobileNet و همراه با اصلاحاتي از جمله عملگرهاي هم‌پيچشي جدايي‌پذير عمقي و ارتباطات پرشي بنام MobileDenseNet ارائه شده است. در ادامه يك ساختار گردن جديد بر پايه معماري هرمي بنام FCPNLite طراحي و پياده‌سازي شد كه شبكه پايه را براي استخراج ويژگي از تصاوير ورودي تقويت كرده است. همچنين براي به اشتراك گذاشتن وزن‌ها در قسمت سر نيز ايده نيمه اشتراكي بودن وزن‌ها پياده‌سازي شد كه باعث افزايش دقت شده است. در نهايت شكل توليد و مشخصات جعبه‌هاي اوليه هم مقداري تغيير كرده است و براي اشيا كوچك‌تر موجود در دادگان و در كل دقت نهايي بهبود ايجاد كرده است. با انجام اين موارد، تشخيص اشيا بر روي تصاوير در اين پژوهش به دقت 8/24 درصد بر روي مجموعه دادگان COCO رسيد كه 8/0 درصد نسبت به ساير مقالات بهتر شد. علاوه بر اين، با معرفي يك سلول بازگشتي جديد به نام GCRU براي انتشار ويژگي در طول زمان و تغييرات ديگري از جمله استفاده از شبكه‌هاي دوگانه و افزايش بازه فريم‌هاي گذشته، به دقت 5/67 درصد و سرعت 62 فريم بر ثانيه با معماري MobileDenseNet و دقت 7/68 درصد و سرعت 52 فريم بر ثانيه با معماري EfficientNet بر روي مجموعه دادگان ImageNetVID رسيديم كه بهترين عملكرد در بين راهكارهاي مشابه در اين حوزه است و 4/0 درصد بالاتر از بهترين راهكار مشابه است.
  • تاريخ ورود اطلاعات
    1404/01/16
  • عنوان به انگليسي
    Real-time Video Object Detection on Embedded Devices by Using Deep Neural Networks
  • تاريخ بهره برداري
    1/1/1900 12:00:00 AM
  • دانشجوي وارد كننده اطلاعات

    محمد حاجي زاده صفار

  • چكيده به لاتين
    Object Detection is the process of classification and localization of objects in an image or video. This is a fundamental step in many high-level activities in the field of machine vision, such as activity recognition, scene analysis, scene description, summarization and semantic understanding. Depending on the use of the image or video, object detection is divided into two sub-sections called object detection in images and object detection in videos. Improving accuracy, speed and processing power has always been the focus of researchers, a large part of which is focused on the processing power of GPUs and devices based on powerful servers. Solutions based on GPUs and high processing power have many diverse applications in the real world. While in recent years, many applications of intelligent analytics on video have been presented in the form of edge-based computing and on embedded devices. Limited processing power, limitations on the size of the model to be placed in memory, and limitations on hardware power consumption are among the complexities of this field. In this thesis, an efficient method is presented based on deep neural networks to detect objects in video, in real time (processing speed higher than 15 frames per second) and with processing power that can be used on embedded devices. To have a robust video object detection method, first there must be a robust object detection method in images so that it can be generalized using techniques for use in video. In order to improve object detection in images, this research first presents a new backbone based on MobileNet with modifications such as depth separable convolutional operators and skip connections called MobileDenseNet. Next, a new neck structure based on pyramidal architecture called FCPNLite was designed and implemented, which has strengthened the network for feature extraction from input images. Also, the idea of half-sharing weights was implemented to share weights in the head, which has increased accuracy. Finally, the specifications of the initial boxes have also changed, which has improved for smaller objects in the data and overall final accuracy. By doing these things, the object detection in images in this research achieved an accuracy of 24.8% on COCO dataset, which is 0.8% better than other papers. In addition, by introducing a new recurrent cell called GCRU for feature propagation over time and other changes such as using dual networks and increasing the interval of previous frames, we achieved 67.5% accuracy and 62 frames per second on the MobileDenseNet architecture and 68.7% accuracy and 52 frames per second on the EfficientNet architecture on ImageNet VID dataset, which is the best performance among similar solutions in this field and 0.4% higher than the best similar solution.
  • كليدواژه هاي فارسي
    تشخيص اشيا , پردازش ويديو , پردازش بي‌درنگ
  • كليدواژه هاي لاتين
    object detection , video processing , Real-time Processing
  • Author
    Mohammad Hajizade Safar
  • SuperVisor
    Dr.Torkaman