شماره ركورد
22048
شماره راهنما(اين فيلد مربوط به كارشناس ميباشد لطفا آن را خالي بگذاريد)
22048
پديد آورنده
مهرداد محمديان
عنوان
ارائه الگوريتمي براي مفهوم بندي شبكه واژگاني وردنت
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
نرمافزار
تاريخ دفاع
1398/12/14
استاد راهنما
دكتر بهروز مينايي بيدگلي
دانشكده
كامپيوتر
چكيده
استفاده گسترده از وردنت به عنوان يك پايگاه داده واژگاني برخط و داراي قابليت خوانايي توسط انسان در سالهاي اخير تأثيرات مثبت بيشماري بر كارهاي مرتبط با پردازش زبان طبيعي داشته است و همچنان در كانون توجهات قرار دارد. اما بسياري از محققان ايرادهايي را بر وردنت وارد ميدانند. يكي از مهمترين ايرادهاي مطرح شده ريزدانه بودن آن است. محققاني كه اين ادعا را دارند بر اين باور هستند كه ريزدانه بودن وردنت ميتواند سبب كاهش كارآيي در تعدادي از كارهاي مرتبط با پردازش زبانهاي طبيعي شود. بنابراين آنها به دنبال روشهايي هستند تا بتوانند وردنت را به شكل مناسبي درشتدانه كنند. از ديگر ايرادهاي مهم كه محققان به آن اشاره دارند كامل نبودن وردنت است. به همين جهت تمايل زيادي به استفاده از منابع خارجي براي پيوند با وردنت در جهت تقويت آن وجود دارد. در اين پژوهش ما دو رويكرد را به منظور حل مشكلات مطرح شده ارائه ميدهيم. در رويكرد اول روشي جديد براي تهيه همنشيمهاي بزرگ به منظور درشتدانه كردن وردنت با استفاده از جاسازي و خوشهبندي ارائه ميدهيم و در رويكرد دوم نيز روشي براي توسعه وردنت و كنار هم قرار دادن همنشيمهاي مرتبط بدون استفاده از منابع خارجي ارائه ميكنيم. در حقيقت ما به جاي استفاده از منبع خارجي براي مفهومبندي و تقويت وردنت از ساختار متني موجود در همنشيمها استفاده ميكنيم. براي ارزيابي وردنتهاي جديد ايجاد شده در دو رويكرد مطرح شده، از يك ابهامزدا بهره بردهايم. در رويكرد اول به جاي استفاده از 117 هزار همنشيم استاندارد موجود در وردنت از 45 همنشيم بزرگ استفاده كردهايم. با توجه به كاهش ابعاد وردنت جديد ايجاد شده، سرعت اجراي ابهامزدا 556 برابر بيشتر از زماني است كه از وردنت استاندارد استفاده ميكند و اين در حالي است كه سنجه-اف تنها در حدود 1% كاهش را از خود نشان ميدهد. همچنين، همنشيمهاي بزرگ ايجاد شده توسط ما دقت بالاتري را نسبت به همنشيمهاي بزرگ ايجاد شده توسط انسان ارائه ميدهند. در رويكرد دوم نيز وردنت تقويت شده را به عنوان ورودي به ابهامزدا ميدهيم. نتايج حاصل شده از اين رويكرد بيانگر آن است كه سنجه-اف پس از اضافه كردن روابط مرتبط به مقدار مشخص به وردنت 0.1% افزايش مييابد.
تاريخ ورود اطلاعات
1399/03/24
عنوان به انگليسي
A new algorithm to conceptualize WordNet lexical database
تاريخ بهره برداري
3/4/2020 12:00:00 AM
دانشجوي وارد كننده اطلاعات
مهرداد محمديان
چكيده به لاتين
The widespread use of WordNet as a human-readable and online lexical database has had significant effects on countless Natural Language Processing (NLP) tasks in recent years, and still, it is the center of attention. However, many researchers are reluctant to use WordNet because of some drawbacks in that. The first reason that researchers are unwilling to benefit from WordNet is that WordNet is too fine-grained, which can reduce the efficiency of some downstream tasks. Thus, they seek some methods which can conceptualize (coarsen) WordNet. The other reason that researchers are not enthusiastic about using WordNet is the incompleteness of WordNet. As a result, they follow some methods to enrich (conceptualize) WordNet with other external resources. In this thesis, we have offered two approaches to resolve the drawbacks. In the first approach, we have proposed a new method to create supersenses of WordNet. On the other hand, WordNet provides us with supersenses in which whole synsets have been clustered to 45 supersenses by linguists. Also, the number of our supersenses is as same as WordNet’s supersenses. In the second approach, we have introduced a new method to develop WordNet without using any external resources. We have taken full advantage of the texts in each synset instead of using other resources. For evaluation of the quality of our supersenses and enriched WordNet, we have used UKB as a Word Sense Disambiguation, which is state-of-the-art in knowledge-based WSD models. Since we have benefited from our 45 supersenses instead of 117K synsets of WordNet in the first approach, the running time of UKB is 556 times as fast as UKB with standard WordNet and F1-score has decreased marginally by approximately 1%. Furthermore, our results show that F1-score has increased by 0.1% after enriching and injecting a specific number of relations into WordNet in the second approach.