-
شماره ركورد
28335
-
پديد آورنده
مريم سادات هاشمي
-
عنوان
پرسش و پاسخ تصويري در زبان فارسي
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
مهندسي كامپيوتر گرايش هوش مصنوعي و رباتيكز
-
سال تحصيل
1398
-
تاريخ دفاع
1401/8/28
-
استاد راهنما
سيد صالح اعتمادي
-
دانشكده
مهندسي كامپيوتر
-
چكيده
مسئله پرسش و پاسخ تصويري يك مسئله چالش برانگيز است كه در سال هاي اخير معرفي شده است و مورد توجه
بسياري از محققان دو حوزه پردازش زبان طبيعي و بينايي ماشين قرار گرفته است. هدف اين مسئله پاسخ به پرسش
مطرح شده در مورد تصوير ورودي است. بيشتر پژوهش هاي اين حوزه بر روي زبان هاي شناخته شده در سطح دنيا مانند
انگليسي متمركز است. به علاوه دادگان هاي موجود در اين حوزه، شامل تصاويري از محيط و فرهنگ اروپا و آمريكا
را به عنوان يك دادگان فارسي ParsVQA-Caps است كه منجر به سوگيري مي شود. بنابراين در اين پژوهش، دادگان
براي مسئله پرسش و پاسخ تصويري و توصيف تصوير معرفي مي كنيم. براي تهيه و جمع آوري اين دادگان فارسي، از دو
روش انساني و مصنوعي براي مسئله پرسش و پاسخ تصويري و از دو روش انساني و مبتني بر وب براي مسئله توصيف
تصوير استفاده مي كنيم. علاوه بر اين، اكثر مدل هاي فعلي، مسئله پرسش و پاسخ تصويري را به صورت دسته بندي حل
مي كنند و نمي توانند پاسخ را به صورت جمله ارائه كنند. از اين رو، يك مدل كدگذار-كدگشا را پيشنهاد مي دهيم كه از
جانمايي مدل هاي از پيشآموزش ديده زبان و تصوير براي توليد پاسخ استفاده مي كند. آزمايش ها را با استفاده از مدل هاي
و Attention RNN ،RNN به عنوان كدگذار به همراه سه كدگشا مختلف CLIPfa و VisualBERT ، LXMERT
براي زبان ParsVQA-Caps براي زبان انگليسي و روي دادگان پيشنهادي FSVQA بر روي دادگان Transformer
فارسي انجام مي دهيم. تجزيه و تحليل خطاي مدل موّلد پيشنهادي نشان مي دهد كه اگر چه در برخي نمونه ها پاسخ مدل
به سوال ورودي صحيح است، توضيح پاسخ ها نشان مي دهد كه مدل سوال را اشتباه متوجه شده است. در آخر يك برنامه
كاربردي به عنوان دستيار هوشمند نابينايان ارائه مي دهيم و روشي را براي كاهش پارامتر هاي مدل آزمايش مي كنيم تا
بتوان مدل را بر روي دستگاه هاي با منابع پردازشي محدود نيز اجرا كرد.
-
تاريخ ورود اطلاعات
1402/03/07
-
عنوان به انگليسي
Visual Question Answering in Persian Language
-
تاريخ بهره برداري
11/19/2023 12:00:00 AM
-
دانشجوي وارد كننده اطلاعات
مريم سادات هاشمي
-
چكيده به لاتين
Visual Question Answering is a challenging task introduced recently and received increasing attention
from computer vision and the natural language processing communities. Visual Question
Answering aims to answer the questions about given images. Most VQA progress is focused on
resource-rich languages such as English. Furthermore, widespread vision-and-language datasets directly
adopt images representative of American or European cultures resulting in bias. Hence, we
introduce ParsVQA-Caps, a Persian benchmark for Visual Question Answering and Image Captioning
tasks. We utilise two ways to collect datasets for each task, human-based and template-based
for VQA and human-based and web-based for image captioning. In addition, Present VQA models
are limited to classification answers and cannot provide answers for reasoning questions. In this
work, we introduce an encoder-decoder model using vision-and-language pretrained embedding,
which delivers multi-word generated sentences as answers. We utilise LXMERT, VisualBERT and
CLIPfa embedding space with three different generative decoder heads, including RNNs, Attention
RNNs and Transformers. Our generative VQA model reveals that although, in some examples,
the VQA model answer is correct, the description of answers shows that the model may misunderstand
the question. Finally, we present a mobile application as an assistant for the blind using our
VQA model and propose a method to reduce the model’s parameters to make it feasible to use in
limited-resource devices.
-
كليدواژه هاي فارسي
پرسش و پاسخ تصويري , دادگان ParsVQA-Caps , مدل هاي از پيش آموزش ديده , مدل كدگذار-كدگشا
-
كليدواژه هاي لاتين
Visual Question Answering , ParsVQA-Caps dataset , Pretrained models , Encoder-Decoder model
-
Author
Maryam Sadat Hashemi
-
SuperVisor
Dr. Sauleh Eetemadi
-
لينک به اين مدرک :