-
شماره ركورد
26502
-
پديد آورنده
سروش كريمي باغملكي
-
عنوان
ارائه يك رويكرد با كارايي بالا جهت تقسيم بندي معنايي تصاوير با كمك روش هاي يادگيري عميق
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
مهندسي كامپيوتر - هوش مصنوعي و رباتيك
-
سال تحصيل
1397-1400
-
تاريخ دفاع
1400/11/28
-
استاد راهنما
دكتر مرتضي آنالويي
-
استاد مشاور
دكتر مرتضي آنالويي
-
دانشكده
مهندسي كامپيوتر
-
چكيده
تقسيم بندي معنايي تصاوير يكي از وظايف بنيادي و پيچيده در حوزه بينايي كامپيوتر است. روش هاي مبتني بر فيلتر هاي كانولوشني به دليل خاصيت محلي خود امكان به دست آوردن يك ديد كلي و عمومي از تصوير را ندارند اما روش ها ي مبنتي بر مكانيزم توجه به دليل خاصيت غيرمحلي خود مي توانند زمينه ي كلي يك عكس را دريافت كنند. در پژوهش حاضر با كمك روش هاي مبتني بر مكانيزم توجه با ارائه ي يك معماري تركيبي و جدا كردن ويژگي هاي دوربرد و نزديك برد و اعمال دو توجه مجزا توانستيم دقت مدل پايه مبتني بر توجه ساده را بهبود دهيم و مصرف حافظه ي آن را كاهش دهيم. همچنين با بررسي مدل هاي از پيش آموزش داده شده ي ترانسفورمري در حوزه ي بينايي كامپيوتر امكان استفاده از آن ها در وظيفه ي تقسيم-بندي معنايي تصاوير را بررسي كرديم. همچنين امكان استفاده از دو مكانيزم توجه متوالي، تحت عنوان توجه روي توجه را بررسي كرديم. براي بررسي معماري پيشنهادي و مقايسه آن با روش هاي معرفي شده در فصل سوم از مجموعه دادگان PASCAL VOC 12 و همچنين مجموعه داده ADE20K استفاده كرديم كه معماري پيشنهادي توانست معماري CFNet كه اكنون در جايگاه هشتم روش هاي پيشرو قراردارد را به ميزان 7.6 درصد در مقياس MIOU بر روي مجموعه دادگان PASCAL VOC12 و 10.1 درصد بر روي مجموعه دادگان ADE20K بهبود بخشد.
-
تاريخ ورود اطلاعات
1401/02/25
-
عنوان به انگليسي
A High Performance Approach to Semantic Image Segmentation Using Deep Learning Methods
-
تاريخ بهره برداري
2/17/2023 12:00:00 AM
-
دانشجوي وارد كننده اطلاعات
سروش كريمي باغملكي
-
چكيده به لاتين
semantic segmentation is one of the fundamental and complex tasks in computer vision. CNN-based approaches have an intrinsic local perspective and can not perceive the context of the whole scene, but the attention-based methods can understand the general context of a photo due to their non-local nature. in this research, a hybrid approach based on the attention mechanism and separating long and short dependencies is proposed. the proposed architecture reduces memory usage and increases model MIOU. We also examined the possibility of using pre-trained transformer models in the task of semantic segmentation. In this way we examined ViT model attention maps. Using this pre-trained model requires a very large data set for training. For this reason, it could not achieve good results in this study. Another effort made in this study is the use of Attention-on-Attention model. In this model, two consecutive attention mechanisms are applied to remove additional misleading information. Finally, the results of all these experiments are compared with each other. Our hybrid architecture outperforms CFNet architecture – number 8 approach in semantic segmentation leaderboard – by 7.6 percent in MIOU scale for PASCAL VOC dataset and 10.1 percent for ADE20K dataset.
-
كليدواژه هاي فارسي
تقسيم بندي معنايي تصاوير , مكانيزم توجه , ترانسفورمر , ويژگي¬هاي دوربرد
-
كليدواژه هاي لاتين
semantic segmentation , attention , transformers , long range dependencies
-
Author
Soroush Karimi
-
SuperVisor
Dr. Morteza Analoui
-
لينک به اين مدرک :