شماره ركورد
34150
پديد آورنده
علي شيخي
عنوان
ﺗﺸﺨﯿﺺ اﺷﯿﺎ و ﺑﺨﺶ ﺑﻨﺪي ﻣﻌﻨﺎﯾﯽ ﺑﻪ ﺻﻮرت ﻫﻤﺰﻣﺎن ﺑﺎ اﺳﺘﻔﺎده از ﯾﺎدﮔﯿﺮي ﭼﻨﺪ-وﻇﯿﻔﻪ اي
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
مخابرات-سيستم
سال تحصيل
1401
تاريخ دفاع
1404/07/30
استاد راهنما
دكتر سيد علي اصغر بهشتي شيرازي
استاد مشاور
ندارم
دانشكده
برق
چكيده
درك صحنه، به ويژه تشخيص اشيا و بخشبندي معنايي، از وظايف بنيادين در حوزههايي مانند خودروهاي خودران و رباتيك است. مدلهاي پيشين كه اين دو وظيفه را به صورت همزمان انجام ميدادند، اغلب با چالشهاي توازن ميان دقت و پيچيدگي محاسباتي مواجه بودند. اين پژوهش يك چارچوب يادگيري چند-وظيفهاي نوين و كارآمد را معرفي ميكند كه با سه نوآوري كليدي، اين چالشها را برطرف ميسازد.
روش تحقيق اين پاياننامه بر يك معماري يكپارچه استوار است كه بهبودهاي زير را شامل ميشود: اول، جايگزيني بدنههاي مبتني بر شبكههاي عصبي پيچشي با معماري پيشرفته مبدل Swin كه به دليل قابليت درك زمينه سراسري، به استخراج ويژگيهاي دقيقتري منجر ميشود. دوم، بهرهگيري از تكنيك تطبيق با رتبه پايين (LoRA) براي دستيابي به حالت بهينه بين تعداد پارامتر و دقت مدل است كه تعداد پارامترهاي قابل آموزش و هزينههاي محاسباتي را به شدت كاهش ميدهد. سوم، معرفي يك تابع هزينه چند-وظيفهاي پويا و خود-تنظيم كه با موازنهسازي هوشمندانه، فرآيند يادگيري را پايدار ميسازد. علاوه بر اين، وظيفه تشخيص لبه نيز به عنوان يك وظيفه مكمل به مدل اضافه شده تا مرزبندي اشيا دقيق تر شود.
نتايج ارزيابي بر روي مجموعه دادهPASCAL Context نشان ميدهد كه معماري پيشنهادي، ضمن افزودن وظيفه جديد تشخيص لبه، به توازن بهتري ميان تعداد پارامتر و دقت دست يافته است. اين مدل با بهرهگيري از تكنيك تطبيق با رتبه پايين، تنها با حدود 2.5 ميليون پارامتر قابل آموزش (تقريباً 15 برابر كمتر از مقاله مرجع) به عملكردي رقابتي دست يافته است. در وظايف اصلي، مدل به ترتيب به mAP 74.0% براي تشخيص اشيا و mIoU 75.0% براي بخشبندي معنايي رسيد كه عملكردي نزديك به مقاله مرجع است. اين نتايج، راهكاري عملي براي پيادهسازي سيستمهاي كارآمد درك صحنه بر روي پلتفرمهاي با منابع محدود مانند سيستمهاي نهفته در خودروها ارائه ميدهد.
تاريخ ورود اطلاعات
1404/09/22
عنوان به انگليسي
Simultaneous object detection and semantic segmentation using Multi-task learning
تاريخ بهره برداري
10/22/2026 12:00:00 AM
دانشجوي وارد كننده اطلاعات
علي شيخي
چكيده به لاتين
Scene understanding—particularly object detection and semantic segmentation—is a fundamental task in domains such as autonomous driving and robotics. Previous models that performed these two tasks simultaneously often struggled to balance accuracy and computational complexity. This research introduces a novel and efficient multi-task learning framework that addresses these challenges through three key innovations.
The proposed method is built upon an integrated architecture featuring the following improvements: (1) replacing conventional convolution-based backbones with the advanced Swin Transformer architecture, which, due to its ability to capture global contextual information, leads to more precise feature representations; (2) employing the Low-Rank Adaptation (LoRA) technique to achieve an optimal trade-off between parameter count and model accuracy, substantially reducing trainable parameters and computational cost; and (3) introducing a dynamic and self-adaptive multi-task loss function that stabilizes the learning process through intelligent balancing among tasks. In addition, an edge detection task is incorporated as an auxiliary objective to enhance the precision of object boundaries.
Experimental results on the PASCAL Context dataset demonstrate that the proposed architecture achieves a superior balance between model accuracy and parameter efficiency while incorporating the additional edge detection task. Utilizing the LoRA technique, the model attains competitive performance with only 2.5 million trainable parameters (approximately 15× fewer than the reference paper). The model achieves 74.0% mAP for object detection and 75.0% mIoU for semantic segmentation, comparable to the reference benchmark. These findings highlight a practical solution for deploying efficient scene understanding systems on resource-constrained platforms such as embedded automotive processors.
كليدواژه هاي فارسي
يادگيري چند-وظيفهاي , تشخيص اشيا , بخشبندي معنايي , مبدل Swin , تطبيق با رتبه پايين
كليدواژه هاي لاتين
Multi-Task Learning , Object Detection , Semantic Segmentation , Swin Transformer , Low-Rank Adaptation
Author
Ali Sheikhi
SuperVisor
Dr. S. Ali Asghar Beheshti Shirazi