فرزانه فخريان

عنوان

بهبود روش‌هاي باناظر براي ارتباط‌دهي موجوديت‌ها در زبان فارسي

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

مهندسي كامپيوتر - هوش مصنوعي و رباتيكز

تاريخ دفاع

1400/06/23

استاد راهنما

دكتر بهروز مينايي بيدگلي

دانشكده

مهندسي كامپيوتر

چكيده

در سال‌هاي اخير، با افزايش روزافزون داده‌ها در اينترنت، وب به يكي از بزرگ‌ترين مخازن داده تبديل شده است. مقادير زيادي از اين داده‌ها در قالب زبان طبيعي است؛ اما اين زبان، بسيار مبهم است. يكي از دلايل اين ابهام وقوع مكرر موجوديت‌ها است. زيرا ممكن است، يك موجوديت داراي چند نام باشد يا يك نام به چند موجوديت اشاره كند. اين حجم بالا از داده‌هاي متني كه همه روزه در حال افزايش است، نيازمند روش‌هاي خودكار جهت پردازش، خلاصه‌سازي و درك معنايي متون است. يك قدم اساسي براي رسيدن به اين هدف، ارتباط‌دادن موجوديت‌هاي متن اسناد با موجوديت‌هاي مرتبط با آن‌ها در پايگاه دانش است. فرآيند ذكر شده، ارتباط‌دهي موجوديت‌ها ناميده مي‌شود. اين پژوهش به معرفي يكي از اولين مدل‌هاي ارتباط‌دهي موجوديت‌ها به كمك روش‌هاي باناظر در زبان فارسي مي‌پردازد. در مدل معرفي شده، براساس چارچوب سيستم‌هاي ارتباط‌دهي موجوديت‌ها، ابتدا موجوديت‌هاي نامزد را از گراف دانش فارسي استخراج و از تركيب مدل ParsBERT و تابع تبديل دوخطي بر روي متن مرتبط با هر موجوديت و مقايسه آن با متن ورودي، براي رتبهبندي نامزد‌هاي هر موجوديت استفاده مي‌شود. و به كمك يك حد آستانه تعريف شده، موجوديت‌هاي غير قابل نگاشت را تشخيص داده و از ديگر موجوديت‌ها با برچسب NL، جدا مي‌كند. مدل معرفي شده، توانسته به نرخ صحت 90% بر روي مجموعه داده ParsEL-Social كه اولين مجموعه داده برچسب‌گذاري شده براي ارتباط‌دهي موجوديت‌‌ها در زبان فارسي است، دست يابد. اين مدل، بهترين عملكرد را بين معدود سيستم‌هاي ارتباط‌دهي موجوديت در زبان فارسي دارد. و نتايج مدل نسبت به بهترين مدل پيشين، حدود 10 درصد در معيار‌ صحت پيشرفت داشته است. نتايج به‌دست آمده، قابل قياس با هر سيستم ارتباط‌دهي موجوديتي است كه بتواند بر روي زبان فارسي پياده‌سازي شود.

تاريخ ورود اطلاعات

1400/09/15

عنوان به انگليسي

Improving Supervised Methods for Persian Entity Linking

تاريخ بهره برداري

9/14/2022 12:00:00 AM

دانشجوي وارد كننده اطلاعات

فرزانه فخريان

Name: فرزانه فخريان
Author: فرزانه فخريان

چكيده به لاتين

In recent years, web data has increased exponentially; creating one of the largest data repositories in the world. A large portion of this data is in natural language formats. However, natural language is highly ambiguous, specifically with respect to the frequent occurrences of named entities. This has created a growing need for automatic methods for text aggregation, summarization, and semantic understanding. Entity linking is a key step towards these goals. Entity linking is the task to link entity mentions in the text with their corresponding entities in a knowledge base. However, this task is challenging due to name variations and entity ambiguity. In this study, we proposed the first supervised entity linking system specifically for the Persian language. In this model, we extract candidate entities from FarsBase and use the ParsBERT model and bilinear transfer layer for each candidate article and compare them to the input text of the entity mention to rank candidates. The proposed model achieves 90% accuracy on the ParsEL-Social dataset, the first Persian entity linking dataset. This model is a state-of-the-art system in Persian entity linking and is approximately 10% more accurate than Parsel1.0, the latest Persian entity linking system released. This model is comparable to any other entity linking system that supports Persian.

كليدواژه هاي فارسي

ابهام‌‌زدايي موجوديت‌ها , يادگيري باناظر , گراف دانش فارسي , پردازش زبان‌هاي طبيعي , ارتباط‌دهي موجوديت‌ها

كليدواژه هاي لاتين

Entity disambiguation , Supervised learning , FarsBase knowledge graph , Natural language processing , Entity linking

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=25639&Field=0&DTC=6