• شماره ركورد
    30542
  • پديد آورنده

    مبينا تاجي

  • عنوان
    بهبود كارايي سامانه‌هاي پرسش و پاسخ دامنه باز در حوزه سوالات چندگامي زبان فارسي
  • مقطع تحصيلي
    كارشناسي ارشد
  • رشته تحصيلي
    مهندسي كامپيوتر- نرم‌افزار
  • سال تحصيل
    1399
  • تاريخ دفاع
    1402/7/4
  • استاد راهنما
    حسن نادري
  • استاد مشاور
    بهروز مينايي بيدگلي
  • دانشكده
    مهندسي كامپيوتر
  • چكيده
    امروزه يكي از محبوبترين و چالش¬برانگيزترين وظايف در پردازش زبان طبيعي پاسخ¬دهي به پرسش¬هاي پيچيده كاربران است. سامانه¬هاي پرسش و پاسخ به عنوان نسل جديد موتورهاي جستجو پرسش¬هاي كاربران را به زبان طبيعي و بدون محدوديت معنايي دريافت مي¬كنند و پاسخ آن‌ها را به نزديك‌ترين و قابل فهم‌ترين شكل ممكن براي انسان يعني در زبان طبيعي در اختيار كاربر قرار مي‌دهند. در سال¬هاي اخير، اكثر پژوهش¬هاي انجام شده در حوزه سامانه¬هاي پرسش و پاسخ بر روي زبان انگليسي متمركز بوده و در زبان¬هاي با منابع محدود از جمله فارسي تلاش چنداني صورت نگرفته است. اين امر سبب مي¬شود اين سامانه¬ها در پشتيباني از زبان¬هاي با منابع محدود همچون فارسي نتوانند كارآمدي خوبي را در مواجه با يك پرسش از خود ارائه دهند. در اين پايان‌نامه به منظور مرتفع‌كردن چالش مطرح شده در زبان فارسي و بهبود كارايي سامانه‌هاي پرسش و پاسخ در پاسخ‌دهي به پرسش، هدف بر اين شد تا مجموعه‌ داده درست و معتبري را براي پرسش‌هاي پيچيده چندگامي مورد پشتيباني اين سامانه‌ها توليد كنيم. بنابراين اولين مجموعه داده پرسش و پاسخ دامنه باز در حوزه پرسش‌هاي چندگامي زبان فارسي بر مبناي دانش‌نامه غيرساخت‌يافته ويكي‌پديا فارسي شامل 7000 پرسش چندگامي توسعه داده شده است. اين مجموعه داده بر روي جديدترين مدل‌هاي زباني پيش آموزش ديده كه از زبان فارسي پشتيباني مي¬كنند از جمله پارس برت، آلبرت، و روبرتا مورد ارزيابي و تنظيم دقيق قرار گرفته است؛ و نتايج حاصل از اين ارزيابي براساس دو معيار اف¬وان و تطابق دقيق گزارش شده است. بهترين نتايج به¬دست آمده مبتني بر دو معيار اف¬وان و تطابق¬دقيق روي اين مجموعه داده به ترتيب 42/85 و 69/83 است. نتايج به¬دست آمده نشانگر اين حقيقت است كه اين مجموعه¬داده شروعي قدرتمند براي بهبود پرسش و پاسخ پيچيده چندگامي براي سامانه¬هاي پرسش و پاسخ فارسي است.
  • تاريخ ورود اطلاعات
    1402/10/17
  • عنوان به انگليسي
    Optimizing the Effectiveness of Open Domain Question Answering Systems for Persian Multi-hop Questions
  • تاريخ بهره برداري
    9/25/2024 12:00:00 AM
  • دانشجوي وارد كننده اطلاعات

    مبينا تاجي

  • چكيده به لاتين
    Nowadays, one of the most popular and challenging tasks in natural language processing is answering complex user questions. Question-answering systems, as a new generation of search engines, receive user questions in natural language without semantic limitations and provide their answers in the closest and most comprehensible way possible for humans, i.e. in natural language. In recent years, most research in the field of question-answering systems has been focused on the English language, and not much effort has been made in languages with limited resources, such as Persian. This limitation prevents these systems from efficiently handling questions in languages like Persian. In this thesis, to solve the challenge raised in the Persian language and improve the efficiency of Question-answering systems in answering questions, the goal was to produce a correct and valid dataset for complex multi-step questions supported by these systems. Therefore, the first open-domain question-answering dataset in Persian multi-hop questions has been developed based on the unstructured Persian Wikipedia encyclopedia containing 7000 multi-hop questions. This dataset has been eva‎luated and fine-tuned on the latest pre-trained language models that support the Persian language, including ParsBERT, AlBERT, and RoBERTa; and the results of this eva‎luation are reported based on the two criteria of reliability and exact matching. The best results obtained based on the two criteria of reliability and exact matching on this dataset are 42.85 and 69.83, respectively. The results indicate that this dataset is a powerful starting point for improving multi-hop complex question answering for Persian question-answering systems.
  • كليدواژه هاي فارسي
    سامانه‌هاي پرسش و پاسخ , پرسش چندگامي , دامنه باز , بهبود كارايي
  • كليدواژه هاي لاتين
    Question Answering System , Multi-hop Question , open domain , Effectiveness Optimization
  • Author
    Mobina Taji
  • SuperVisor
    Dr. Hassan Naderi