هدي الشهيب

عنوان

ساخت اولين پيكره حاشيه نگاري شده پيونددهي موجوديت در زبان عربي، با استفاده از ويكي پديا و ارزيابي رويكردهاي مبتني بر يادگيري عميق روي آن

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

نرم‌افزار

تاريخ دفاع

1398/12/6

استاد راهنما

دكتر بهروز مينايي

دانشكده

كامپيوتر

چكيده

در پردازش‌زبان‌طبيعي براي استخراج اطلاعات، پيونددهي‌موجوديت‌ها روشي است كه اخيرا توجه بسياري از متخصصان و محققان پردازش‌زبان‌طبيعي را به خود جلب كرده‌است. پيونددهي‌موجوديت‌ها وظيفه شناسايي و ابهام‌زدايي موجوديت‌ها را به يك پايگاه‌دانش (مانند ويكي‌ديتا ، دي‌بي‌پديا يا ياگو)را انجام مي‌دهد. پيونددهي‌موجوديت‌ها، همچنين به عنوان پيونددهي نام‌ها ، ابهام‌زدايي موجوديت‌هاي اسمي، شناسايي و ابهام‌زدايي موجوديت‌هاي اسمي يا نرمالايز كردن موجوديت‌هاي اسمي نيز شناخته مي‌شود كه وظيفه اختصاص موجوديت‌ها به پيوندهاي منحصربه‌فرد را به عهده دارند. غني‌سازي اسناد متني با چنين پيوندهايي ابهام موجوديت‌ها را برطرف مي‌كند. ابهام‌هاي موجود در متون براي بسياري از برنامه‌هاي استخراج متن يك چالش حل نشده‌است و ممكن است يك موجوديت توسط تعداد زيادي نامزد انتخاب شود. علاوه بر اين، تعداد زيادي از موجوديت‌ها وجود دارد كه امكان پيوند با ويكيپديا را ندارد، زيرا ويكيپديا داراي پوشش محدودي است. در اين پايان‌نامه پيكره‌ي حاشيه‌نگاري شده‌اي براي پيونددهي موجوديت براي زبان عربي تهيه شده و يكي از روش‌هاي معتبر مستقل از زبان در مرزهاي دانش بر روي آن بومي‌سازي گرديد همچنين روشي مبتني بر بردارهاي تعبيه واژگان كه با استفاده از الگوريتم‌هاي يادگيري عميق ايجاد شده‌اند براي ابهام زدايي موجوديت‌ها ارائه شد. به عبارت ديگر، يك بار مسئله پيونددهي موجوديت پايان به پايان و يك بار مسئله ابهام‌زدايي موجوديت بر روي پيكره حاشيه‌نگاري شده ارزيابي گرديد. در مسئله پيونددهي موجوديت، امتياز ¬F 0/79 و در روش دوم نرخ صحت 0/75 حاصل شد، كه با عددهاي حاصل از روش‌هاي بي‌ناظر موجود در مرزهاي دانش پيونددهي موجوديت در زبان انگليسي قابل مقايسه است.

تاريخ ورود اطلاعات

1399/04/23

عنوان به انگليسي

Creating the first Entity Linking Annotated Corpus for Arabic Language, Based on Wikipedia, and Evaluation of Deep Learning Approaches on it

تاريخ بهره برداري

2/25/2020 12:00:00 AM

دانشجوي وارد كننده اطلاعات

هدي الشهيب

Name: هدي الشهيب
Author: هدي الشهيب

چكيده به لاتين

In natural language processing for information extraction, entity linking is a method that has recently attracted the attention of many natural language professionals and researchers. Linking entities performs the task of identifying and disambiguating entities to a knowledge base (such as Wikipedia, DBpedia, or Yago). Binding of entities is also known as NamedEntity Linking(NEL) , NamedEntity Disambiguation(NED) , NamedEntity Recognition and Disambiguation(NERD) , NamedEntity Normalization(NEN) that are responsible to assigning entities to unique links. Enriching text documents with such links removes the ambiguity of the entities. The ambiguities in the texts are a challenge for many text extraction programs, and an entity may be selected by a large number of candidates. In addition, there are many entities that cannot be linked to Wikipedia, because Wikipedia has limited coverage. In this thesis, we create annotated corpus for Arabic entity linking and we examined two ways for entity linking one of them is based and in another one using deep learning algorithms. In first method F¬score was 0.79 and in the second method the accuracy rate was 0.75, which is comparable to the methods available at the English entity linking.

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=22077&Field=0&DTC=6