• شماره ركورد
    33336
  • پديد آورنده

    ميلاد محمديان

  • عنوان
    ارائه يك چارچوب بدون نظارت براي پيونددهي موجوديت‌هاي نام‌دار در متون فارسي به گراف دانش ويكي‌ديتا با استفاده از روش‌هاي پيشرفته جانمايي متن
  • مقطع تحصيلي
    كارشناسي ارشد
  • رشته تحصيلي
    مهندسي كامپيوتر
  • سال تحصيل
    1400
  • تاريخ دفاع
    1403/11/30
  • استاد راهنما
    بهروز مينايي بيدگلي
  • استاد مشاور
    بهروز مينايي بيدگلي
  • دانشكده
    كامپيوتر
  • چكيده
    پيونددهي موجوديت‌هاي نام‌دار يكي از مسائل اساسي در پردازش زبان طبيعي است كه هدف آن تشخيص موجوديت‌هاي نام‌دار داخل متن و اتصال آن‌ها به موجوديت‌هاي متناظر در يك گراف دانش مانند ويكي‌ديتا است. اين مسأله در زبان فارسي به ‌دليل چالش‌هايي نظير موجوديت‌هاي مبهم، ناقص، غير قابل پيوند و پيچيدگي‌هاي زباني، اهميت زيادي دارد همچنين پياده‌سازي يك سامانه پيونددهي موجوديت براي استنتاج كارآمد در زمان واقعي در محيط‌هاي توليدي يك چالش بزرگ است. پژوهش حاضر يك چارچوب جامع و كارآمد براي حل اين مسأله در زبان فارسي ارائه مي‌دهد كه شامل مراحل تشخيص موجوديت‌هاي نام‌دار داخل متن، بازيابي موجوديت‌هاي نامزد از گراف دانش و ابهام‌زدايي است. براي ارزيابي مدل، يك مجموعه ‌داده از منابع متنوع فارسي مانند متون خبري، ادبي و محاوره‌اي طراحي و برچسب‌گذاري شد. اين مجموعه شامل موجوديت‌هاي دقيق، مبهم، ناقص و غير قابل پيوند است كه چالش‌هاي زباني فارسي را پوشش مي‌دهد. نتايج آزمايش‌ها نشان داد كه چارچوب پيشنهادي به امتياز F1 معادل 06/89 درصد دست يافت، همچنين با توجه به كم بودن زمان استنتاج، براي محيط‌هاي توليدي مناسب مي‌باشد. مقايسه با روش‌هاي موجود نشان داد كه چارچوب پيشنهادي در مديريت چالش‌هاي زبان فارسي، از جمله موجوديت‌هاي مبهم و ناقص، عملكرد بهتري نسبت به ديگر روش‌ها دارد. اين پژوهش با طراحي يك چارچوب جامع و ايجاد يك مجموعه داده استاندارد، گامي مؤثر در توسعه ابزارهاي پردازش زبان فارسي برداشته است. دستاوردهاي آن مي‌توانند در كاربردهايي نظير سامانه‌هاي پرسش و پاسخ و تحليل متون فارسي مورد استفاده قرار گيرد.
  • تاريخ ورود اطلاعات
    1404/02/13
  • عنوان به انگليسي
    An Unsupervised Framework for Linking Named Entities in Persian Texts to the Wikidata Knowledge Graph Using Advanced Text Embedding Methods
  • تاريخ بهره برداري
    2/18/2026 12:00:00 AM
  • دانشجوي وارد كننده اطلاعات

    ميلاد محمديان

  • چكيده به لاتين
    Named Entity Linking (NEL) is a fundamental task in Natural Language Processing (NLP) that aims to identify named entities within a text and link them to their corresponding entities in a knowledge graph such as Wikidata. This task is particularly challenging in Persian due to issues such as ambiguous, incomplete, and unlinkable entities, as well as the linguistic complexities of the language. Additionally, implementing an efficient NEL system for real-time inference in production environments remains a significant challenge. This research presents a comprehensive and efficient framework for addressing NEL in Persian, consisting of three main stages: named entity recognition, candidate entity retrieva‎l from the knowledge graph, and disambiguation. To eva‎luate the model, a dataset was constructed and annotated from diverse Persian sources, including news articles, literary texts, and conversational data. This dataset includes precise, ambiguous, incomplete, and unlinkable entities, covering various linguistic challenges in Persian. Experimental results demonstrated that the proposed framework achieved an F1 score of 89.06%. Moreover, its low inference time makes it suitable for deployment in production environments. A comparative analysis with existing methods showed that the proposed framework outperforms others in handling Persian-specific challenges, particularly ambiguous and incomplete entities. By designing a comprehensive framework and developing a standardized dataset, this research contributes significantly to advancing Persian NLP tools. The findings of this study can be applied to various applications, such as question-answering systems and Persian text analysis.
  • كليدواژه هاي فارسي
    پيونددهي موجوديت , شناسايي موجوديت‌هاي نام‌دار , ابهام‌زدايي موجوديت , گراف دانش , ويكي‌ديتا
  • كليدواژه هاي لاتين
    Entity Linking , Named Entity Recognition , Entity Disambiguation , Knowledge Graph , Wikidata
  • Author
    Milad Mohammadian
  • SuperVisor
    Behrouz Minaei Bidgoli