• شماره ركورد
    10296
  • پديد آورنده

    عرفان كلندي

  • عنوان
    توسعه RAG براي بهبود پاسخ دهي به سؤالات مرتبط با دانشگاه علم و صنعت ايران در مدل هاي زباني بزرگ با بهره گيري از داده هاي جمع آوري شده
  • مقطع تحصيلي
    كارشناسي
  • رشته تحصيلي
    مهندسي كامپيوتر
  • سال فارغ التحصيلي
    1404
  • استاد راهنما
    دكتر ناصر مزيني
  • استاد مشاور
    دكتر مرضيه داوود آبادي
  • دانشجوي وارد كننده اطلاعات

    عرفان كلندي

  • تاريخ ورود اطلاعات
    1405/01/31
  • دانشكده
    مهندسي كامپيوتر
  • عنوان به انگليسي
    RAG development to improve question answering related to Iran University of Science an‎d Technology in LLMs using collected data
  • چكيده
    با گسترش استفاده از مدل‌هاي زباني بزرگ در سامانه‌هاي پرسش‌وپاسخ، چالش‌هاي متعددي در كاربردهاي دامنه‌محور و سازماني نمايان شده است. يكي از مهم‌ترين اين چالش‌ها، ناتواني مدل‌هاي زباني در دسترسي مستقيم به اطلاعات محلي، به‌روز و ساختارمند يك سازمان است كه مي‌تواند منجر به توليد پاسخ‌هاي ناقص، قديمي يا نادرست شود. معماري توليد تقويت‌شده با بازيابي به ‌عنوان يكي از راهكارهاي مؤثر براي كاهش اين مشكل مطرح شده است، زيرا امكان اتصال مدل زباني به يك پايگاه دانش خارجي و معتبر را فراهم مي‌كند. در اين پروژه، يك سامانه «توليد تقويت‌شده با بازيابي» (Retrieva‎l-Augmented Generation) يا به اختصار (RAG)، به‌منظور بهبود پاسخ‌گويي به پرسش‌هاي مرتبط با دانشگاه علم و صنعت ايران طراحي و پياده‌سازي شده است. يكي از كاربردهاي اصلي اين سامانه، پاسخ‌گويي به پرسش‌هاي متداول دانشجويان، به‌ويژه دانشجويان نوورود، در مواجهه با اطلاعات پراكنده و ناهمگون دانشگاهي است. به‌منظور ايجاد پايگاه دانش مناسب، داده‌ها به‌صورت خودكار از منابع مختلف شامل وب‌سايت‌هاي رسمي دانشگاه و كانال‌هاي اطلاع‌رساني تلگرام جمع‌آوري شده‌اند. براي اين منظور، خزنده‌هاي اختصاصي براي وب و تلگرام توسعه داده شده و محتواي استخراج‌شده پس از پالايش، با استفاده از مدل‌هاي زباني بزرگ به قالبي يكپارچه و ساختارمند شامل متن و فراداده تبديل شده است. علاوه بر اين، اطلاعات منتشرشده در قالب تصوير و فايل‌هاي پي‌دي‌اف نيز با بهره‌گيري از روش‌هاي تشخيص نويسه نوري (OCR) به متن قابل پردازش تبديل گرديده‌اند. در نهايت، پايگاه دانش حاصل در يك زنجيره توليد تقويت‌شده با بازيابي مورد استفاده قرار گرفته و عملكرد سامانه از طريق انجام آزمون‌هاي مختلف با ورودي‌هاي متنوع و پرسش‌هاي مرتبط با حوزه دانشگاه مورد بررسي قرار گرفته است. نتايج اين آزمون‌ها نشان مي‌دهد كه اتصال مدل زباني به داده‌هاي ساختارمند و به‌روز دانشگاهي، امكان توليد پاسخ‌هاي مرتبط‌تر و منطبق‌تر با محتواي واقعي سازمان را فراهم مي‌كند و سامانه قادر است به پرسش‌هاي دامنه‌محور پاسخ‌هاي قابل اتكاتري ارائه دهد.