شماره ركورد
34442
پديد آورنده
مريم شفيعي ابيانه
عنوان
پيشنهاد بهترين روش زمينهسازي در توليد تقويتشده با بازيابي با در نظر گرفتن ويژگيهاي دامنه
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
نرمافزار
سال تحصيل
1402
تاريخ دفاع
1404/10/09
استاد راهنما
دكتر حسين رحماني
استاد مشاور
-
دانشكده
مهندسي كامپيوتر
چكيده
در سالهاي اخير مدلهاي زباني بزرگ با توانايي چشمگير در فهم و توليد متن، نقش مهمي در تحليل حجم فزاينده دادههاي متني ايفا ميكنند. پيشرفتهاي مداوم اين مدلها موجب شده است كه در حوزههاي مختلف مرتبط با درك، تحليل و توليد اطلاعات متني به طور گستردهاي مورد استفاده قرار گيرند. با اين حال، اين مدلها عليرغم تواناييهاي پيشرفته، همچنان با چالش ناتواني در بهكارگيري دانش زمينهاي دقيق و درك عميق پرسشهاي تخصصي روبهرو هستند. براي رفع اين محدوديت، رويكرد توليد تقويتشده با بازيابي يا RAG به عنوان راهكاري مؤثر جهت بهرهگيري از منابع دانش خارجي و ارتقاي كيفيت استنتاج مدل معرفي شده است. در اين رويكرد، زمينهسازي به عنوان مؤلفهاي اساسي، فرآيند تطبيق و سازماندهي اطلاعات بازيابي شده با ساختار معنايي و هدف پرسش را برعهده دارد و از اين طريق به بهبود استدلال مدل، كاهش ابهام و افزايش دقت نتايج كمك ميكند. با وجود اين، كارايي روشهاي زمينهسازي به طور قابل توجهي به ويژگيها، ساختار دانش و الزامات هر دامنه وابسته است.
در اين پژوهش، با در نظر گرفتن ويژگيهاي دامنه تشخيص موضع ، دو روش زمينهسازي بهينه در توليد تقويت شده با بازيابي با نامهاي CASKOW و RaWaGh ارائه شده است. نوآوري روش CASKOW در توليد زمينهاي نمونهمحور براساس دانش منابع خارجي است؛ بدين صورت كه پس از بازيابي دانش مرتبط، مدل زباني بزرگ براي هر نمونه آموزشي زمينهاي مناسب توليد ميكند. نوآوري روش RaWaGh نيز در بهرهگيري از الگوريتم گشت تصادفي براي كشف مفاهيم مرتبط در گراف دانش است كه پس از ساخت گراف دانش دامنهمحور و اعمال الگوريتم، گرههاي مرتبط با موجوديتها شناسايي و زيرگرافهاي مفهومي كشف ميشوند. در هر دو روش زمينه بازيابي شده به مدل زباني بزرگ ارائه ميشود تا موضع متن نسبت به هدف پيشبيني گردد.
ارزيابي دو روش پيشنهادي بر روي مجموعهداده Semeval-2016 نشان ميدهد كه زمينهسازي متني بهبود 7 درصدي و زمينهسازي گرافي بهبود 8 درصدي در امتياز F1 ايجاد كرده است. اين ميزان بهبود نسبت به روش پايه حاصل شده است كه در آن مدل زباني بزرگ بدون بهرهمندي از دانش خارجي، موضع را تشخيص ميدهد. نتايج ارزيابيهاي كيفي نيز حاكي از آن است كه هر دو روش زمينهاي غني و مرتبط ارائه ميكنند و موجب بهبود شفافيت و توضيحپذيري ميشوند.
تاريخ ورود اطلاعات
1404/11/06
عنوان به انگليسي
Recommending the Best Contextualization Method in Retrieval-Augmented Generation Considering Domain Specific Features
تاريخ بهره برداري
1/6/2026 12:00:00 AM
دانشجوي وارد كننده اطلاعات
مريم شفيعي ابيانه
چكيده به لاتين
In recent years, large language models (LLMs), with their remarkable capabilities in understanding and generating text, have played a significant role in analyzing the rapidly growing volume of textual data. Continuous advancements in these models have led to their widespread adoption across various tasks related to text comprehension, analysis, and generation. Nevertheless, despite their advanced capabilities, LLMs still face challenges in effectively incorporating precise contextual knowledge and achieving a deep understanding of domain-specific queries. To address these limitations, Retrieval-Augmented Generation (RAG) has been introduced as an effective approach for leveraging external knowledge sources and enhancing the reasoning quality of language models. Within this framework, contextualization serves as a core component responsible for aligning and organizing retrieved information in accordance with the semantic structure and the objective of the query, thereby improving model reasoning, reducing ambiguity, and increasing prediction accuracy. However, the effectiveness of contextualization methods is highly dependent on domain characteristics, knowledge structure, and task-specific requirements.
In this research, considering the specific characteristics of the stance detection domain, two optimized contextualization methods within the RAG framework, named CASKOW and RaWaGh, are proposed. The main contribution of CASKOW lies in generating sample-specific context based on external knowledge sources. After retrieving relevant knowledge, the large language model generates an appropriate contextual passage for each training instance. The key innovation of RaWaGh is the use of a random walk algorithm to discover related concepts in a domain-specific knowledge graph. After constructing the knowledge graph and applying the algorithm, nodes related to the target entities are identified and meaningful conceptual subgraphs are extracted.
Experimental evaluations conducted on the Semeval-2016 dataset demonstrate that textual contextualization achieves a 7% improvement in F1-score, while graph-based contextualization yields an 8% improvement, compared to the baseline model that performs stance detection without utilizing external knowledge. Qualitative analyses further indicate that both methods provide rich and relevant contextual information, leading to improved transparency and interpretability of the model’s predictions.
كليدواژه هاي فارسي
توليد تقويتشده با بازيابي , تشخيص موضع , آگاهي از زمينه , پايگاه دانش خارجي , بازيابي اطلاعات
كليدواژه هاي لاتين
Retrieval-Augmented Generation , Stance Detection , Context Awareness , External Knowledge Base , Information Retrieval
Author
Maryam Shafiei Abyaneh
SuperVisor
Dr. Hossein Rahmani