-
شماره ركورد
30542
-
پديد آورنده
مبينا تاجي
-
عنوان
بهبود كارايي سامانههاي پرسش و پاسخ دامنه باز در حوزه سوالات چندگامي زبان فارسي
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
مهندسي كامپيوتر- نرمافزار
-
سال تحصيل
1399
-
تاريخ دفاع
1402/7/4
-
استاد راهنما
حسن نادري
-
استاد مشاور
بهروز مينايي بيدگلي
-
دانشكده
مهندسي كامپيوتر
-
چكيده
امروزه يكي از محبوبترين و چالش¬برانگيزترين وظايف در پردازش زبان طبيعي پاسخ¬دهي به پرسش¬هاي پيچيده كاربران است. سامانه¬هاي پرسش و پاسخ به عنوان نسل جديد موتورهاي جستجو پرسش¬هاي كاربران را به زبان طبيعي و بدون محدوديت معنايي دريافت مي¬كنند و پاسخ آنها را به نزديكترين و قابل فهمترين شكل ممكن براي انسان يعني در زبان طبيعي در اختيار كاربر قرار ميدهند. در سال¬هاي اخير، اكثر پژوهش¬هاي انجام شده در حوزه سامانه¬هاي پرسش و پاسخ بر روي زبان انگليسي متمركز بوده و در زبان¬هاي با منابع محدود از جمله فارسي تلاش چنداني صورت نگرفته است. اين امر سبب مي¬شود اين سامانه¬ها در پشتيباني از زبان¬هاي با منابع محدود همچون فارسي نتوانند كارآمدي خوبي را در مواجه با يك پرسش از خود ارائه دهند. در اين پاياننامه به منظور مرتفعكردن چالش مطرح شده در زبان فارسي و بهبود كارايي سامانههاي پرسش و پاسخ در پاسخدهي به پرسش، هدف بر اين شد تا مجموعه داده درست و معتبري را براي پرسشهاي پيچيده چندگامي مورد پشتيباني اين سامانهها توليد كنيم. بنابراين اولين مجموعه داده پرسش و پاسخ دامنه باز در حوزه پرسشهاي چندگامي زبان فارسي بر مبناي دانشنامه غيرساختيافته ويكيپديا فارسي شامل 7000 پرسش چندگامي توسعه داده شده است. اين مجموعه داده بر روي جديدترين مدلهاي زباني پيش آموزش ديده كه از زبان فارسي پشتيباني مي¬كنند از جمله پارس برت، آلبرت، و روبرتا مورد ارزيابي و تنظيم دقيق قرار گرفته است؛ و نتايج حاصل از اين ارزيابي براساس دو معيار اف¬وان و تطابق دقيق گزارش شده است. بهترين نتايج به¬دست آمده مبتني بر دو معيار اف¬وان و تطابق¬دقيق روي اين مجموعه داده به ترتيب 42/85 و 69/83 است. نتايج به¬دست آمده نشانگر اين حقيقت است كه اين مجموعه¬داده شروعي قدرتمند براي بهبود پرسش و پاسخ پيچيده چندگامي براي سامانه¬هاي پرسش و پاسخ فارسي است.
-
تاريخ ورود اطلاعات
1402/10/17
-
عنوان به انگليسي
Optimizing the Effectiveness of Open Domain Question Answering Systems for Persian Multi-hop Questions
-
تاريخ بهره برداري
9/25/2024 12:00:00 AM
-
دانشجوي وارد كننده اطلاعات
مبينا تاجي
-
چكيده به لاتين
Nowadays, one of the most popular and challenging tasks in natural language processing is answering complex user questions. Question-answering systems, as a new generation of search engines, receive user questions in natural language without semantic limitations and provide their answers in the closest and most comprehensible way possible for humans, i.e. in natural language. In recent years, most research in the field of question-answering systems has been focused on the English language, and not much effort has been made in languages with limited resources, such as Persian. This limitation prevents these systems from efficiently handling questions in languages like Persian. In this thesis, to solve the challenge raised in the Persian language and improve the efficiency of Question-answering systems in answering questions, the goal was to produce a correct and valid dataset for complex multi-step questions supported by these systems. Therefore, the first open-domain question-answering dataset in Persian multi-hop questions has been developed based on the unstructured Persian Wikipedia encyclopedia containing 7000 multi-hop questions. This dataset has been evaluated and fine-tuned on the latest pre-trained language models that support the Persian language, including ParsBERT, AlBERT, and RoBERTa; and the results of this evaluation are reported based on the two criteria of reliability and exact matching. The best results obtained based on the two criteria of reliability and exact matching on this dataset are 42.85 and 69.83, respectively. The results indicate that this dataset is a powerful starting point for improving multi-hop complex question answering for Persian question-answering systems.
-
كليدواژه هاي فارسي
سامانههاي پرسش و پاسخ , پرسش چندگامي , دامنه باز , بهبود كارايي
-
كليدواژه هاي لاتين
Question Answering System , Multi-hop Question , open domain , Effectiveness Optimization
-
Author
Mobina Taji
-
SuperVisor
Dr. Hassan Naderi
-
لينک به اين مدرک :