علي شيخي

عنوان

ﺗﺸﺨﯿﺺ اﺷﯿﺎ و ﺑﺨﺶ ﺑﻨﺪي ﻣﻌﻨﺎﯾﯽ ﺑﻪ ﺻﻮرت ﻫﻤﺰﻣﺎن ﺑﺎ اﺳﺘﻔﺎده از ﯾﺎدﮔﯿﺮي ﭼﻨﺪ-وﻇﯿﻔﻪ اي

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

مخابرات-سيستم

سال تحصيل

1401

تاريخ دفاع

1404/07/30

استاد راهنما

دكتر سيد علي اصغر بهشتي شيرازي

استاد مشاور

ندارم

دانشكده

برق

چكيده

درك صحنه، به ويژه تشخيص اشيا و بخش‌بندي معنايي، از وظايف بنيادين در حوزه‌هايي مانند خودروهاي خودران و رباتيك است. مدل‌هاي پيشين كه اين دو وظيفه را به صورت همزمان انجام مي‌دادند، اغلب با چالش‌هاي توازن ميان دقت و پيچيدگي محاسباتي مواجه بودند. اين پژوهش يك چارچوب يادگيري چند-وظيفه‌اي نوين و كارآمد را معرفي مي‌كند كه با سه نوآوري كليدي، اين چالش‌ها را برطرف مي‌سازد. روش تحقيق اين پايان‌نامه بر يك معماري يكپارچه استوار است كه بهبودهاي زير را شامل مي‌شود: اول، جايگزيني بدنه‌هاي مبتني بر شبكه‌هاي عصبي پيچشي با معماري پيشرفته مبدل Swin كه به دليل قابليت درك زمينه سراسري، به استخراج ويژگي‌هاي دقيق‌تري منجر مي‌شود. دوم، بهره‌گيري از تكنيك تطبيق با رتبه پايين (LoRA) براي دستيابي به حالت بهينه بين تعداد پارامتر و دقت مدل است كه تعداد پارامترهاي قابل آموزش و هزينه‌هاي محاسباتي را به شدت كاهش مي‌دهد. سوم، معرفي يك تابع هزينه چند-وظيفه‌اي پويا و خود-تنظيم كه با موازنه‌سازي هوشمندانه، فرآيند يادگيري را پايدار مي‌سازد. علاوه بر اين، وظيفه تشخيص لبه نيز به عنوان يك وظيفه مكمل به مدل اضافه شده تا مرزبندي اشيا دقيق تر شود. نتايج ارزيابي بر روي مجموعه دادهPASCAL Context نشان مي‌دهد كه معماري پيشنهادي، ضمن افزودن وظيفه جديد تشخيص لبه، به توازن بهتري ميان تعداد پارامتر و دقت دست يافته است. اين مدل با بهره‌گيري از تكنيك تطبيق با رتبه پايين، تنها با حدود 2.5 ميليون پارامتر قابل آموزش (تقريباً 15 برابر كمتر از مقاله مرجع) به عملكردي رقابتي دست يافته است. در وظايف اصلي، مدل به ترتيب به mAP 74.0% براي تشخيص اشيا و mIoU 75.0% براي بخش‌بندي معنايي رسيد كه عملكردي نزديك به مقاله مرجع است. اين نتايج، راهكاري عملي براي پياده‌سازي سيستم‌هاي كارآمد درك صحنه بر روي پلتفرم‌هاي با منابع محدود مانند سيستم‌هاي نهفته در خودروها ارائه مي‌دهد.

تاريخ ورود اطلاعات

1404/09/22

عنوان به انگليسي

Simultaneous object detection an‎d semantic segmentation using Multi-task learning

تاريخ بهره برداري

10/22/2026 12:00:00 AM

دانشجوي وارد كننده اطلاعات

علي شيخي

Name: علي شيخي
Author: علي شيخي

چكيده به لاتين

Scene understan‎ding—particularly object detection an‎d semantic segmentation—is a fundamental task in domains such as autonomous driving an‎d robotics. Previous models that performed these two tasks simultaneously often struggled to balance accuracy an‎d computational complexity. This research introduces a novel an‎d efficient multi-task learning framework that addresses these challenges through three key innovations. The proposed method is built upon an integrated architecture featuring the following improvements: (1) replacing conventional convolution-based backbones with the advanced Swin Transformer architecture, which, due to its ability to capture global contextual information, leads to more precise feature representations; (2) employing the Low-Rank Adaptation (LoRA) technique to achieve an optimal trade-off between parameter count an‎d model accuracy, substantially reducing trainable parameters an‎d computational cost; an‎d (3) introducing a dynamic an‎d self-adaptive multi-task loss function that stabilizes the learning process through intelligent balancing among tasks. In addition, an edge detection task is incorporated as an auxiliary objective to enhance the precision of object boundaries. Experimental results on the PASCAL Context dataset demonstrate that the proposed architecture achieves a superior balance between model accuracy an‎d parameter efficiency while incorporating the additional edge detection task. Utilizing the LoRA technique, the model attains competitive performance with only 2.5 million trainable parameters (approximately 15× fewer than the reference paper). The model achieves 74.0% mAP for object detection an‎d 75.0% mIoU for semantic segmentation, comparable to the reference benchmark. These findings highlight a practical solution for deploying efficient scene understan‎ding systems on resource-constrained platforms such as embedded automotive processors.

كليدواژه هاي فارسي

يادگيري چند-وظيفه‌اي , تشخيص اشيا , بخش‌بندي معنايي , مبدل Swin , تطبيق با رتبه پايين

كليدواژه هاي لاتين

Multi-Task Learning , Object Detection , Semantic Segmentation , Swin Transformer , Low-Rank Adaptation

Author

Ali Sheikhi

SuperVisor

Dr. S. Ali Asghar Beheshti Shirazi

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=34150&Field=0&DTC=6