• شماره ركورد
    9848
  • پديد آورنده

    هليا شمس زاده اميري

  • عنوان
    تبديل متن به دانش ساخت‌يافته: رويكردي مبتني بر قاب‌هاي معنايي و RDF
  • مقطع تحصيلي
    كارشناسي
  • رشته تحصيلي
    مهندسي كامپيوتر
  • سال فارغ التحصيلي
    1404
  • استاد راهنما
    دكتر بهروز مينائي بيدگلي
  • دانشجوي وارد كننده اطلاعات

    هليا شمس زاده اميري

  • تاريخ ورود اطلاعات
    1404/07/22
  • دانشكده
    مهندسي كامپيوتر
  • عنوان به انگليسي
    Transforming Text into Structured Knowledge: A Frame-Semantics an‎d RDF-based Approach
  • چكيده
    بخش بزرگي از دانش انساني در متون بلند و ناهمگون – نظير زندگي‌نامه‌ها، اخبار، دانشنامه‌ها – نهفته است و تبديل آن به بازنمايي‌هاي ساخت‌يافتهٔ قابل‌پرس‌وجو—به‌ويژه براي كاربردهاي Graph RAG—همچنان چالش‌برانگيز است. براي اين كار بايد رويدادها و نقش‌هاي معنايي شناسايي، موجوديت‌ها به منابع معتبر پيوند داده، ارجاعات ضميري حل، و نهايتاً دانش به سه‌تايي‌هاي سازگار با RDF نگاشت شود. اين پژوهش يك خط لولهٔ سرتاسري براي توليد گراف دانش و سه‌تايي‌هاي RDF ارائه مي‌كند كه با تكيه بر بازنمايي قابي (به‌جاي استخراج سطحيِ روابط) مسير تبديل متن به محمول‌هاي پايدار را هموار مي‌سازد. ساختار خط لوله سه مؤلفهٔ كليدي دارد: استخراج نقش‌ها و قاب‌ها با مدل Frame Semantic Transformer، پيونددهي موجوديت‌ها با REL همراه با آستانهٔ اطمينان، و حل هم‌ارجاعي ضماير با LLaMA 2 از طريق DeepInfra. انتخاب اين تركيب به‌صورت عملي و دامنه‌محور انجام شد: LLaMA 2 براي متن‌هاي كوتاه–ميانه با بودجهٔ محاسباتي محدود توازن خوبي ميان دقت و تأخير دارد و از بستر DeepInfra پايدار و تكرارپذير در دسترس است؛ ضمن آن‌كه مدل‌هاي زباني بزرگ به‌سبب انعطاف‌پذيري و توانايي مديريت ابهام‌هاي معنايي، براي اين نقش از مدل‌هاي صرفاً ازپيش‌آموزش‌ديده مناسب‌ترند. خروجي ميانجي سپس با نگاشت‌هاي ازپيش‌تعريف‌شده به محمول‌ها ترجمه و سه‌تايي‌هاي RDF توليد مي‌شود. اين خط لوله بر روي مجموعه‌اي شامل صد زندگي‌نامهٔ نويسندگان ويكي‌پديا ارزيابي شد. براي تضمين كيفيت و ارزيابي بي‌طرفانه و سازگارِ سه‌تايي‌ها، از «مدلِ زبانيِ قاضي» DeepSeek V3 استفاده شد تا سه‌تايي‌ها را از نظر قابليت استنتاج از متن و سطح اطمينان داوري كند. در مجموع 1,675 جمله پردازش، 2,720 موجوديت استخراج و 9,635 سه‌تايي توليد شد؛ از اين ميان 4,743 سه‌تايي (تا سقف 50 براي هر نويسنده) ارزيابي گرديد. ميانگين اطمينان 53.1% و ميانهٔ آن 60.0% بود؛ حدود 60% از سه‌تايي‌ها بالاتر از ميانه و قابل‌قبول، و نزديك به 35% با كيفيت بالا ارزيابي شدند. تمركز نتايج در بازهٔ ميانه (0.4 تا 0.7) نشان مي‌دهد كه تقويت استحكام استخراج و بهبود بازه‌هاي اطمينان مي‌تواند كيفيت كلي را ارتقا دهد. اين خط لوله، افزون بر توليد گراف‌هاي زندگي‌نامه‌اي، براي تغذيهٔ لايهٔ بازيابي در Graph RAG، پاسخ‌گويي مبتني بر دانش ساخت‌يافته و تقويت استنادپذيري (پيوند پاسخ‌ها به شواهد متني) كاربردي است و مسير عملي براي بهره‌برداري دقيق‌تر از متن‌هاي بلند در سامانه‌هاي دانش‌محور فراهم مي‌كند.
  • كليدواژه ها
    گراف دانش , قاب‌هاي معنايي , استخراج موجوديت , RDF , برچسب‌گذاري نقش معنايي , مدل‌هاي زباني بزرگ , مدل زباني قاضي