شماره ركورد
9848
پديد آورنده
هليا شمس زاده اميري
عنوان
تبديل متن به دانش ساختيافته: رويكردي مبتني بر قابهاي معنايي و RDF
مقطع تحصيلي
كارشناسي
رشته تحصيلي
مهندسي كامپيوتر
سال فارغ التحصيلي
1404
استاد راهنما
دكتر بهروز مينائي بيدگلي
دانشجوي وارد كننده اطلاعات
هليا شمس زاده اميري
تاريخ ورود اطلاعات
1404/07/22
دانشكده
مهندسي كامپيوتر
عنوان به انگليسي
Transforming Text into Structured Knowledge: A Frame-Semantics and RDF-based Approach
چكيده
بخش بزرگي از دانش انساني در متون بلند و ناهمگون – نظير زندگينامهها، اخبار، دانشنامهها – نهفته است و تبديل آن به بازنماييهاي ساختيافتهٔ قابلپرسوجو—بهويژه براي كاربردهاي Graph RAG—همچنان چالشبرانگيز است. براي اين كار بايد رويدادها و نقشهاي معنايي شناسايي، موجوديتها به منابع معتبر پيوند داده، ارجاعات ضميري حل، و نهايتاً دانش به سهتاييهاي سازگار با RDF نگاشت شود. اين پژوهش يك خط لولهٔ سرتاسري براي توليد گراف دانش و سهتاييهاي RDF ارائه ميكند كه با تكيه بر بازنمايي قابي (بهجاي استخراج سطحيِ روابط) مسير تبديل متن به محمولهاي پايدار را هموار ميسازد.
ساختار خط لوله سه مؤلفهٔ كليدي دارد: استخراج نقشها و قابها با مدل Frame Semantic Transformer، پيونددهي موجوديتها با REL همراه با آستانهٔ اطمينان، و حل همارجاعي ضماير با LLaMA 2 از طريق DeepInfra. انتخاب اين تركيب بهصورت عملي و دامنهمحور انجام شد: LLaMA 2 براي متنهاي كوتاه–ميانه با بودجهٔ محاسباتي محدود توازن خوبي ميان دقت و تأخير دارد و از بستر DeepInfra پايدار و تكرارپذير در دسترس است؛ ضمن آنكه مدلهاي زباني بزرگ بهسبب انعطافپذيري و توانايي مديريت ابهامهاي معنايي، براي اين نقش از مدلهاي صرفاً ازپيشآموزشديده مناسبترند. خروجي ميانجي سپس با نگاشتهاي ازپيشتعريفشده به محمولها ترجمه و سهتاييهاي RDF توليد ميشود.
اين خط لوله بر روي مجموعهاي شامل صد زندگينامهٔ نويسندگان ويكيپديا ارزيابي شد. براي تضمين كيفيت و ارزيابي بيطرفانه و سازگارِ سهتاييها، از «مدلِ زبانيِ قاضي» DeepSeek V3 استفاده شد تا سهتاييها را از نظر قابليت استنتاج از متن و سطح اطمينان داوري كند. در مجموع 1,675 جمله پردازش، 2,720 موجوديت استخراج و 9,635 سهتايي توليد شد؛ از اين ميان 4,743 سهتايي (تا سقف 50 براي هر نويسنده) ارزيابي گرديد. ميانگين اطمينان 53.1% و ميانهٔ آن 60.0% بود؛ حدود 60% از سهتاييها بالاتر از ميانه و قابلقبول، و نزديك به 35% با كيفيت بالا ارزيابي شدند. تمركز نتايج در بازهٔ ميانه (0.4 تا 0.7) نشان ميدهد كه تقويت استحكام استخراج و بهبود بازههاي اطمينان ميتواند كيفيت كلي را ارتقا دهد.
اين خط لوله، افزون بر توليد گرافهاي زندگينامهاي، براي تغذيهٔ لايهٔ بازيابي در Graph RAG، پاسخگويي مبتني بر دانش ساختيافته و تقويت استنادپذيري (پيوند پاسخها به شواهد متني) كاربردي است و مسير عملي براي بهرهبرداري دقيقتر از متنهاي بلند در سامانههاي دانشمحور فراهم ميكند.
كليدواژه ها
گراف دانش , قابهاي معنايي , استخراج موجوديت , RDF , برچسبگذاري نقش معنايي , مدلهاي زباني بزرگ , مدل زباني قاضي