شماره ركورد
10296
پديد آورنده
عرفان كلندي
عنوان
توسعه RAG براي بهبود پاسخ دهي به سؤالات مرتبط با دانشگاه علم و صنعت ايران در مدل هاي زباني بزرگ با بهره گيري از داده هاي جمع آوري شده
مقطع تحصيلي
كارشناسي
رشته تحصيلي
مهندسي كامپيوتر
سال فارغ التحصيلي
1404
استاد راهنما
دكتر ناصر مزيني
استاد مشاور
دكتر مرضيه داوود آبادي
دانشجوي وارد كننده اطلاعات
عرفان كلندي
تاريخ ورود اطلاعات
1405/01/31
دانشكده
مهندسي كامپيوتر
عنوان به انگليسي
RAG development to improve question answering related to Iran University of Science and Technology in LLMs using collected data
چكيده
با گسترش استفاده از مدلهاي زباني بزرگ در سامانههاي پرسشوپاسخ، چالشهاي متعددي در كاربردهاي دامنهمحور و سازماني نمايان شده است. يكي از مهمترين اين چالشها، ناتواني مدلهاي زباني در دسترسي مستقيم به اطلاعات محلي، بهروز و ساختارمند يك سازمان است كه ميتواند منجر به توليد پاسخهاي ناقص، قديمي يا نادرست شود. معماري توليد تقويتشده با بازيابي به عنوان يكي از راهكارهاي مؤثر براي كاهش اين مشكل مطرح شده است، زيرا امكان اتصال مدل زباني به يك پايگاه دانش خارجي و معتبر را فراهم ميكند. در اين پروژه، يك سامانه «توليد تقويتشده با بازيابي» (Retrieval-Augmented Generation) يا به اختصار (RAG)، بهمنظور بهبود پاسخگويي به پرسشهاي مرتبط با دانشگاه علم و صنعت ايران طراحي و پيادهسازي شده است. يكي از كاربردهاي اصلي اين سامانه، پاسخگويي به پرسشهاي متداول دانشجويان، بهويژه دانشجويان نوورود، در مواجهه با اطلاعات پراكنده و ناهمگون دانشگاهي است. بهمنظور ايجاد پايگاه دانش مناسب، دادهها بهصورت خودكار از منابع مختلف شامل وبسايتهاي رسمي دانشگاه و كانالهاي اطلاعرساني تلگرام جمعآوري شدهاند. براي اين منظور، خزندههاي اختصاصي براي وب و تلگرام توسعه داده شده و محتواي استخراجشده پس از پالايش، با استفاده از مدلهاي زباني بزرگ به قالبي يكپارچه و ساختارمند شامل متن و فراداده تبديل شده است. علاوه بر اين، اطلاعات منتشرشده در قالب تصوير و فايلهاي پيدياف نيز با بهرهگيري از روشهاي تشخيص نويسه نوري (OCR) به متن قابل پردازش تبديل گرديدهاند. در نهايت، پايگاه دانش حاصل در يك زنجيره توليد تقويتشده با بازيابي مورد استفاده قرار گرفته و عملكرد سامانه از طريق انجام آزمونهاي مختلف با وروديهاي متنوع و پرسشهاي مرتبط با حوزه دانشگاه مورد بررسي قرار گرفته است. نتايج اين آزمونها نشان ميدهد كه اتصال مدل زباني به دادههاي ساختارمند و بهروز دانشگاهي، امكان توليد پاسخهاي مرتبطتر و منطبقتر با محتواي واقعي سازمان را فراهم ميكند و سامانه قادر است به پرسشهاي دامنهمحور پاسخهاي قابل اتكاتري ارائه دهد.