شماره ركورد
22077
پديد آورنده
هدي الشهيب
عنوان
ساخت اولين پيكره حاشيه نگاري شده پيونددهي موجوديت در زبان عربي، با استفاده از ويكي پديا و ارزيابي رويكردهاي مبتني بر يادگيري عميق روي آن
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
نرمافزار
تاريخ دفاع
1398/12/6
استاد راهنما
دكتر بهروز مينايي
دانشكده
كامپيوتر
چكيده
در پردازشزبانطبيعي براي استخراج اطلاعات، پيونددهيموجوديتها روشي است كه اخيرا توجه بسياري از متخصصان و محققان پردازشزبانطبيعي را به خود جلب كردهاست. پيونددهيموجوديتها وظيفه شناسايي و ابهامزدايي موجوديتها را به يك پايگاهدانش (مانند ويكيديتا ، ديبيپديا يا ياگو)را انجام ميدهد. پيونددهيموجوديتها، همچنين به عنوان پيونددهي نامها ، ابهامزدايي موجوديتهاي اسمي، شناسايي و ابهامزدايي موجوديتهاي اسمي يا نرمالايز كردن موجوديتهاي اسمي نيز شناخته ميشود كه وظيفه اختصاص موجوديتها به پيوندهاي منحصربهفرد را به عهده دارند. غنيسازي اسناد متني با چنين پيوندهايي ابهام موجوديتها را برطرف ميكند. ابهامهاي موجود در متون براي بسياري از برنامههاي استخراج متن يك چالش حل نشدهاست و ممكن است يك موجوديت توسط تعداد زيادي نامزد انتخاب شود. علاوه بر اين، تعداد زيادي از موجوديتها وجود دارد كه امكان پيوند با ويكيپديا را ندارد، زيرا ويكيپديا داراي پوشش محدودي است. در اين پاياننامه پيكرهي حاشيهنگاري شدهاي براي پيونددهي موجوديت براي زبان عربي تهيه شده و يكي از روشهاي معتبر مستقل از زبان در مرزهاي دانش بر روي آن بوميسازي گرديد همچنين روشي مبتني بر بردارهاي تعبيه واژگان كه با استفاده از الگوريتمهاي يادگيري عميق ايجاد شدهاند براي ابهام زدايي موجوديتها ارائه شد. به عبارت ديگر، يك بار مسئله پيونددهي موجوديت پايان به پايان و يك بار مسئله ابهامزدايي موجوديت بر روي پيكره حاشيهنگاري شده ارزيابي گرديد. در مسئله پيونددهي موجوديت، امتياز ¬F 0/79 و در روش دوم نرخ صحت 0/75 حاصل شد، كه با عددهاي حاصل از روشهاي بيناظر موجود در مرزهاي دانش پيونددهي موجوديت در زبان انگليسي قابل مقايسه است.
تاريخ ورود اطلاعات
1399/04/23
عنوان به انگليسي
Creating the first Entity Linking Annotated Corpus for Arabic Language, Based on Wikipedia, and Evaluation of Deep Learning Approaches on it
تاريخ بهره برداري
2/25/2020 12:00:00 AM
دانشجوي وارد كننده اطلاعات
هدي الشهيب
چكيده به لاتين
In natural language processing for information extraction, entity linking is a method that has recently attracted the attention of many natural language professionals and researchers. Linking entities performs the task of identifying and disambiguating entities to a knowledge base (such as Wikipedia, DBpedia, or Yago). Binding of entities is also known as NamedEntity Linking(NEL) , NamedEntity Disambiguation(NED) , NamedEntity Recognition and Disambiguation(NERD) , NamedEntity Normalization(NEN) that are responsible to assigning entities to unique links. Enriching text documents with such links removes the ambiguity of the entities. The ambiguities in the texts are a challenge for many text extraction programs, and an entity may be selected by a large number of candidates. In addition, there are many entities that cannot be linked to Wikipedia, because Wikipedia has limited coverage. In this thesis, we create annotated corpus for Arabic entity linking and we examined two ways for entity linking one of them is based and in another one using deep learning algorithms. In first method F¬score was 0.79 and in the second method the accuracy rate was 0.75, which is comparable to the methods available at the English entity linking.