دانيال قشقائي داودي

عنوان

طراحي و پياده‌سازي شبكه‌هاي مبتني بر همجوشي براي قطعه‌بندي معنايي رنگ - عمق در كاربردهاي رانندگي

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

مهندسي برق- سيستم‌هاي الكترونيك ديجيتال

سال تحصيل

1400

تاريخ دفاع

1403/3/30

استاد راهنما

شهريار برادران شكوهي - ستار ميرزاكوچكي

استاد مشاور

ندارم

دانشكده

مهندسي برق

چكيده

قطعه‌بندي معنايي به‌عنوان عنصري مهم در تفسير بصري پيچيده، نقشي بنيادي در سيستم‌هاي بينايي خودروهاي خودران ايفا مي‌كند. پژوهش‌هاي گذشته نشان داده‌اند كه مدل‌هاي قطعه‌بندي معنايي مبتني بر RGB-D، در مقايسه با مدل‌هاي RGB، از دقت بالاتري برخوردارند. با توجه به ضرورت پردازش بلادرنگ در سناريوهاي رانندگي خودران، استفاده از مدل‌هاي قطعه‌بندي معنايي RGB-D با چالش‌هاي مهمي از جمله پيچيدگي محاسباتي بالا و سرعت پردازش پايين همراه است. ازاين‌رو در اين پژوهش، شبكه همجوشي مبتني بر شباهت كسينوسي (CSFNet) را براي قطعه‌بندي معنايي RGB-D بلادرنگ ارائه مي‌كنيم. به طور مشخص، ما يك ماژول همجوشي توجه مبتني بر شباهت كسينوسي (CS-AFM) را طراحي كرديم كه با عملكرد بهتر از روش‌هاي پيشين، به اصلاح و همجوشي ويژگي‌هاي دو وجه مي‌پردازد. مدل CSFNet، پيش‌گام در استفاده از ستون فقرات STDC در يك شبكه كدگذار بهينه‌ دووجهي است. كدگذار پيشنهادي با يك ماژول زمينه سبك‌وزن و يك شبكه كدگشا انعطاف‌پذير براي پيش‌بيني سريع و دقيق تركيب شده است. مجموعه‌اي جامع از آزمايش‌ها نشان مي‌دهد كه CSFNet در مقايسه با مدل‌هاي پيشرفته قطعه‌بندي معنايي RGB-D، تعادل برتري بين دقت، سرعت و تعداد پارامترها را برقرار مي‌كند. دو نسخه پيشنهادي CSFNet-1 و CSFNet-2 به ترتيب به دقت‌هاي 74.73 و 76.36 درصد و سرعت‌ها 106.1 و 72.3 فريم بر ثانيه در مجموعه‌داده CityScapes (وضوح نصف) دست يافته‌اند. علاوه بر اين، مدل پيشنهادي در كاربردهاي ديگر از جمله قطعه‌بندي معنايي RGB-T و RGB-P نيز عملكرد چشمگيري را از خود نشان مي‌دهد. طبق نتايج، مدل پيشنهادي CSFNet در مجموعه‌داده‌هاي MFNet و ZJU به دقتي قابل رقابت با بهترين مدل‌ها دست يافته و بالاترين سرعت استنتاج را در بين تمام مدل‌هاي قطعه‌بندي معنايي چندوجهي دارد.

تاريخ ورود اطلاعات

1403/04/13

عنوان به انگليسي

Design and implementation of fusion based networks for RGB-D semantic segmentation in driving applications

تاريخ بهره برداري

1/1/1900 12:00:00 AM

دانشجوي وارد كننده اطلاعات

دانيال قشقائي داودي

Name: دانيال قشقائي داودي
Author: دانيال قشقائي داودي

چكيده به لاتين

Semantic segmentation, as a crucial component of complex visual interpretation, plays a fundamental role in the vision systems of autonomous vehicles. Previous studies have shown that RGB-D semantic segmentation models outperform RGB models in terms of accuracy. Considering the necessity of real-time processing in autonomous driving scenarios, employing RGB-D semantic segmentation models poses significant challenges, including high computational complexity and low processing speed. Accordingly, in this research, we propose the Cosine Similarity Fusion Network (CSFNet) for real-time RGB-D semantic segmentation. Specifically, we designed a Cosine Similarity Attention Fusion Module (CS-AFM) that effectively rectifies and fuses features from two modalities, outperforming the previous methods. The CSFNet model also pioneers the use of the STDC backbone within an optimized two-modality encoder network. The proposed encoder is combined with a lightweight context module and a flexible decoder network for fast and accurate prediction. A comprehensive set of experiments demonstrates that the CSFNet model strikes a superior balance between accuracy, speed, and number of parameters compared to state-of-the-art RGB-D semantic segmentation models. The two proposed networks, CSFNet-1 and CSFNet-2, have achieved accuracies of 74.73% and 76.36% and speeds of 106.1 FPS and 72.3 FPS, respectively, on the CityScapes dataset (half resolution). Furthermore, the proposed model shows remarkable performance in other applications, including RGB-T and RGB-P semantic segmentation. According to the results, the proposed CSFNet model achieves competitive accuracy on the MFNet and ZJU datasets, as well as the highest inference speed among all multimodal semantic segmentation models.

كليدواژه هاي فارسي

قطعه‌بندي معنايي , قطعه‌بندي معنايي RGB-D , رانندگي خودران , مدل CSFNet , ماژول CS-AFM

كليدواژه هاي لاتين

Semantic Segmentation , RGB-D semantic segmentation , autonomous driving , CSFNet model , CS-AFM module

Author

Danial Ghashghaei

SuperVisor

Dr. Shahriyar Baradaran Shokoohi

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=31006&Field=0&DTC=6