-
شماره ركورد
26668
-
پديد آورنده
فاطمه سادات شهرآبادي
-
عنوان
توليد شرح تصاوير با بهره گيري از يادگيري ترانسفورمر
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
مهندسي كامپيوتر - هوش مصنوعي
-
سال تحصيل
1397
-
تاريخ دفاع
1400/11/27
-
استاد راهنما
دكتر مرتضي آنالويي
-
استاد مشاور
دكتر مرتضي آنالويي
-
دانشكده
مهندسي كامپيوتر و فناوري اطلاعات
-
چكيده
در وظيفه توليد شرح براي تصاوير، ابتدا ويژگي هاي برجسته تصوير استخراج مي شوند، سپس به كمك اين ويژگي هاي به دست آمده، يك توصيف زباني براي تصوير، توليد خواهد شد. درك تصوير و استخراج ويژگي هاي آن، نياز به شناسايي و تشخيص اشيا، درك نوع صحنه يا مكان، ويژگي هاي شي و تعاملات بين آن ها دارد. همچنين توليد جملات خوش فرم مستلزم درك نحوي و معنايي زبان است. وظيفه توليد شرح براي تصاوير يك وظيفه ي يادگيري توالي به توالي است. مدل سازي داده هاي متوالي اغلب بر اساس شبكه هاي عصبي كانولوشني و يا بازگشتي پيچيده كه شامل يك رمزگذار و رمزگشا هستند، انجام مي شود. بهترين اين مدل ها، اغلب شامل مكانيسم توجه نيز مي باشند. مدل ترانسفورمر يك مدل مبتني بر رمزگذار-رمزگشا است كه هيچ عمليات كانولوشن و يا بازگشتي اي را شامل نمي شود و تنها با مكانيسم توجه، توانسته است به نتايج بهتري نسبت به مدل هاي مبتني بر شبكه هاي عصبي كانولوشني و يا بازگشتي دست يابد. اين مدل به حافظه بسيار كمتري نسبت به مدل هاي قبلي خود نياز دارد و به همين دليل از كارايي بالايي برخورد است. مدل پيشنهادي در اين پژوهش بر مبناي مدل ترانسفورمر است. دليل انتخاب اين مدل به عنوان مدل مبنا، نتايج درخشان آن در زمينه دقت و كارايي مي باشد. در مدل پيشنهادي اين پژوهش، از ماژول توجه روي توجه به جاي ماژول توجه در ساختار رمزگذار و رمزگشا و همچنين از اسلات هاي حافظه در كنار بردارهاي كليد-مقدار در رمزگذار استفاده شده است. همچنين در اين مدل، خروجي تمامي رمزگذارها به صورت وزن دار به عنوان ورودي تمامي رمزگشاها مورد استفاده قرار مي گيرند. در اين پژوهش از مجموعه داده MS-COCO استفاده شده است. اين مجموعه داده توسط سيستم ترجمه گوگل به زبان فارسي ترجمه شده است. مدل پيشنهادي اين پژوهش در جايگاهي مابين سومين و چهارمين مدل پيشرو در وظيفه توليد شرح براي تصاوير قرار خواهد گرفت. همچنين اين مدل به نتايج خوبي بر روي مجموعه داده MS-COCO به زبان فارسي دست يافته است كه با دست يابي به اين نتايج، به عنوان اولين مدل پيشرو معرفي خواهد شد.
-
تاريخ ورود اطلاعات
1401/03/16
-
عنوان به انگليسي
Image Captioning Using Transformer Learning
-
تاريخ بهره برداري
2/16/2023 12:00:00 AM
-
دانشجوي وارد كننده اطلاعات
فاطمه سادات شهرابادي
-
چكيده به لاتين
In the task of image captioning, first the dominant features of the image are extracted, then with the help of these features, a linguistic description for the image will be generated. Understanding an image and extracting its features requires identifying and recognizing objects, understanding the type of scene or place, the properties of the object, and the interactions between them. Also, producing well-formed sentences requires a syntactic and semantic understanding of the language. Image captioning is a Sequence-to-Sequence task. Sequential data modeling is often based on complex convolutional or recursive neural networks that include an encoder and decoder. The best of these models often includes the attention mechanism. The Transformer model is an encoder-decoder-based model that does not involve any convolutional or recursive operations and, thanks to the attention mechanism, has been able to achieve better results than models based on convolutional or recursive neural networks. This model requires much less memory than its predecessors, and therefore has a high impact performance. The proposed model in this research is based on the Transformer model. The reason for choosing this model as the base model is its brilliant results in terms of accuracy and efficiency. In the proposed model of this research, the attention-on-attention module is used instead of the attention module in the encoder and decoder structure, as well as memory slots along with key-value vectors in the encoder. Also in this model, the output of all weight encoders is used as the input of all decoders. In this research, MS-COCO data set has been used. This data set has been translated into Persian by Google's translation system. The proposed model of this research has achieved good results on the MS-COCO data set in English and will be placed between the third and fourth leading models in the task of image captioning. Also, this model has achieved good results on the MS-COCO data set in Persian, which will be introduced as the first leading model.
-
كليدواژه هاي فارسي
توليد شرح براي تصاوير , مكانيسم توجه , رمزگذار - رمزگشا , مدل ترانسفورمر
-
كليدواژه هاي لاتين
Image Captioning , Attention mechanism , Encoder-Decoder , Transformer
-
Author
fatemeh sadat shahrabadi
-
SuperVisor
dr morteza analoui
-
لينک به اين مدرک :