-
شماره ركورد
33336
-
پديد آورنده
ميلاد محمديان
-
عنوان
ارائه يك چارچوب بدون نظارت براي پيونددهي موجوديتهاي نامدار در متون فارسي به گراف دانش ويكيديتا با استفاده از روشهاي پيشرفته جانمايي متن
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
مهندسي كامپيوتر
-
سال تحصيل
1400
-
تاريخ دفاع
1403/11/30
-
استاد راهنما
بهروز مينايي بيدگلي
-
استاد مشاور
بهروز مينايي بيدگلي
-
دانشكده
كامپيوتر
-
چكيده
پيونددهي موجوديتهاي نامدار يكي از مسائل اساسي در پردازش زبان طبيعي است كه هدف آن تشخيص موجوديتهاي نامدار داخل متن و اتصال آنها به موجوديتهاي متناظر در يك گراف دانش مانند ويكيديتا است. اين مسأله در زبان فارسي به دليل چالشهايي نظير موجوديتهاي مبهم، ناقص، غير قابل پيوند و پيچيدگيهاي زباني، اهميت زيادي دارد همچنين پيادهسازي يك سامانه پيونددهي موجوديت براي استنتاج كارآمد در زمان واقعي در محيطهاي توليدي يك چالش بزرگ است. پژوهش حاضر يك چارچوب جامع و كارآمد براي حل اين مسأله در زبان فارسي ارائه ميدهد كه شامل مراحل تشخيص موجوديتهاي نامدار داخل متن، بازيابي موجوديتهاي نامزد از گراف دانش و ابهامزدايي است. براي ارزيابي مدل، يك مجموعه داده از منابع متنوع فارسي مانند متون خبري، ادبي و محاورهاي طراحي و برچسبگذاري شد. اين مجموعه شامل موجوديتهاي دقيق، مبهم، ناقص و غير قابل پيوند است كه چالشهاي زباني فارسي را پوشش ميدهد.
نتايج آزمايشها نشان داد كه چارچوب پيشنهادي به امتياز F1 معادل 06/89 درصد دست يافت، همچنين با توجه به كم بودن زمان استنتاج، براي محيطهاي توليدي مناسب ميباشد. مقايسه با روشهاي موجود نشان داد كه چارچوب پيشنهادي در مديريت چالشهاي زبان فارسي، از جمله موجوديتهاي مبهم و ناقص، عملكرد بهتري نسبت به ديگر روشها دارد. اين پژوهش با طراحي يك چارچوب جامع و ايجاد يك مجموعه داده استاندارد، گامي مؤثر در توسعه ابزارهاي پردازش زبان فارسي برداشته است. دستاوردهاي آن ميتوانند در كاربردهايي نظير سامانههاي پرسش و پاسخ و تحليل متون فارسي مورد استفاده قرار گيرد.
-
تاريخ ورود اطلاعات
1404/02/13
-
عنوان به انگليسي
An Unsupervised Framework for Linking Named Entities in Persian Texts to the Wikidata Knowledge Graph Using Advanced Text Embedding Methods
-
تاريخ بهره برداري
2/18/2026 12:00:00 AM
-
دانشجوي وارد كننده اطلاعات
ميلاد محمديان
-
چكيده به لاتين
Named Entity Linking (NEL) is a fundamental task in Natural Language Processing (NLP) that aims to identify named entities within a text and link them to their corresponding entities in a knowledge graph such as Wikidata. This task is particularly challenging in Persian due to issues such as ambiguous, incomplete, and unlinkable entities, as well as the linguistic complexities of the language. Additionally, implementing an efficient NEL system for real-time inference in production environments remains a significant challenge. This research presents a comprehensive and efficient framework for addressing NEL in Persian, consisting of three main stages: named entity recognition, candidate entity retrieval from the knowledge graph, and disambiguation. To evaluate the model, a dataset was constructed and annotated from diverse Persian sources, including news articles, literary texts, and conversational data. This dataset includes precise, ambiguous, incomplete, and unlinkable entities, covering various linguistic challenges in Persian.
Experimental results demonstrated that the proposed framework achieved an F1 score of 89.06%. Moreover, its low inference time makes it suitable for deployment in production environments. A comparative analysis with existing methods showed that the proposed framework outperforms others in handling Persian-specific challenges, particularly ambiguous and incomplete entities. By designing a comprehensive framework and developing a standardized dataset, this research contributes significantly to advancing Persian NLP tools. The findings of this study can be applied to various applications, such as question-answering systems and Persian text analysis.
-
كليدواژه هاي فارسي
پيونددهي موجوديت , شناسايي موجوديتهاي نامدار , ابهامزدايي موجوديت , گراف دانش , ويكيديتا
-
كليدواژه هاي لاتين
Entity Linking , Named Entity Recognition , Entity Disambiguation , Knowledge Graph , Wikidata
-
Author
Milad Mohammadian
-
SuperVisor
Behrouz Minaei Bidgoli
-
لينک به اين مدرک :