-
شماره ركورد
27881
-
پديد آورنده
سيد هيمن قادري
-
عنوان
ارائه الگوريتمي مبتني بر شباهتيابي معنايي براي استخراج پاسخهاي نامزد در سامانههاي پرسشوپاسخ
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
مهندسي كامپيوتر - نرم افزار
-
سال تحصيل
1401
-
تاريخ دفاع
1401/8/16
-
استاد راهنما
حسن نادري
-
دانشكده
كامپيوتر
-
چكيده
امروزه بسياري از درخواست ها روي سامانه هاي پرسش پاسخ از جنس چندگامي و به صورت زبان طبيعي هستند. پرسش هايي كه صرفا با تكيه بر يك پاراگراف يا سند نمي توان به پاسخ دقيق رسيد. بسياري از پرسش ها شواهد چندگانه كه در اسناد مختلف پراكنده هستند را نياز دارند. براي اين كار لازم است كه اطلاعاتي مختلفي بازيابي شوند كه از لحاظ معنايي با پرسش مرتبط باشند. با اين كار مي توان دانشي را استخراج كرد كه به صورت عادي قابل دسترس نباشد.
از آنجا كه اطلاعات لازم جهت بازيابي اسناد مرتبط در پرسش هاي چندگامي به صورت مستقيم گنجانده نمي شوند سامانه هاي بازيابي اطلاعت موجود توانايي شناسايي و بازيابي همه اسناد مرتبط را ندارند. براي اين پرسش ها نيازمند سامانه بازيابي اطلاعاتي هستيم كه روابط بين اسناد مرتبط با پاسخ را شناسايي و اطلاعات لازم را بازيابي كند. زماني كه پرسش چندگامي مطرح شده به صورت دامنه باز و تعداد اسناد موجود زياد باشد، فرايند بازيابي اطلاعات چالش برانگيزتر خواهد بود.
در اين پژوهش هدف پيدا كردن روابط بين پرسش و اسناد و بازگرداندن اسناد مرتبط است كه راه رسيدن به پاسخ نهايي را هموار كند. پرسش هاي چندگامي موضوعي است كه در اين پژوهش مورد بررسي قرار مي گيرد. شناسايي نوع پرسش و استفاده از بازيابي هاي چند مرحله اي راهكاري است كه در اين پژوهش مورد بررسي قرار مي گيرد. در سال هاي اخير استفاده از مدل هاي مبتني بر شبكه هاي عصبي از پيش آموزش ديده شده منجر به بهبود نتايج در حوزه بازيابي اطلاعات و پردازش زبان طبيعي شده است. در اين پژوهش نيز از مدلهاي مختلف مانند مدل هاي تبديل كننده، برت و شبكه هاي عصبي عميق جهت بهبود عملكرد بازيابي اطلاعات استفاده شده است. جاسازي متن در بردار، استخراج موجوديت هاي و در نهايت تاكيد بر كلمات كليدي در پرسش و متن از مهم ترين بخش هاي اين پژوهش است.
الگوريتم پيشنهادي روي مجموعه داده هات پات كيواي ارزيابي شده است. اين مجموعه داده در سال 2018 براي ارزيابي سامانه هاي پرسش پاسخ چندگامي ايجاد شده است. همچنين روش ارائه شده روي بيش از 5 ميليون مقاله ويكيپديا به خوبي عمل كرده و نسبت به روش هاي پايه بهتر عمل كرده است.
-
تاريخ ورود اطلاعات
1401/11/22
-
عنوان به انگليسي
An Algorithm based on Semantic Similarity to Extract Candidate Answers in Question Answering Systems
-
تاريخ بهره برداري
11/7/2023 12:00:00 AM
-
دانشجوي وارد كننده اطلاعات
سيدهيمن قادري
-
چكيده به لاتين
Answering multi-hop questions in QA systems requires a strong information retrieval system. Information retrieval system that can retrieve various related evidence with high accuracy. When the question requires is multi-hop information retrieval and the number of available documents is large, the information retrieval process will be more challenging.
In this work, the goal is to find the way to the final gold documentation for final answer. Multi-hop questions are a topic that is examined in this work. Multi-hop QA systems require retrieving appropriate initial information to find the final answer. In recent years, the use of models based on pre-trained neural networks has led to improved results in the field of information retrieval and natural language processing. In this work, different models such as Transformer models, BERT, etc. have been used to improve information retrieval accuracy. Embedding the text in the vector, extracting the entities, and finally emphasizing the keywords in the question and the text is one of the most important parts of this research.
The proposed algorithm is evaluated on the HotpotQA dataset. This dataset was created in 2018 to evaluate multi-hop QA systems. Also, the proposed method works well on more than 5 million Wikipedia articles and provides acceptable results.
-
كليدواژه هاي فارسي
پردازش زبان طبيعي , بازيابي اطلاعات , پرسش پاسخ , درك مطلب ماشين
-
كليدواژه هاي لاتين
Natural language processing , Information retrieval , Question answering system , Machine comprehension
-
Author
Seyed Himan Ghaderi
-
SuperVisor
Hasan Naderi
-
لينک به اين مدرک :