• شماره ركورد
    22048
  • شماره راهنما(اين فيلد مربوط به كارشناس ميباشد لطفا آن را خالي بگذاريد)
    22048
  • پديد آورنده

    مهرداد محمديان

  • عنوان
    ارائه الگوريتمي براي مفهوم بندي شبكه واژگاني وردنت
  • مقطع تحصيلي
    كارشناسي ارشد
  • رشته تحصيلي
    نرم‌افزار
  • تاريخ دفاع
    1398/12/14
  • استاد راهنما
    دكتر بهروز مينايي بيدگلي
  • دانشكده
    كامپيوتر
  • چكيده
    استفاده گسترده از وردنت به عنوان يك پايگاه داده واژگاني برخط و داراي قابليت خوانايي توسط انسان در سال‌هاي اخير تأثيرات مثبت بي‌شماري بر كارهاي مرتبط با پردازش زبان طبيعي داشته است و همچنان در كانون توجهات قرار دارد. اما بسياري از محققان ايرادهايي را بر وردنت وارد مي‌دانند. يكي از مهم‌ترين ايرادهاي مطرح شده ريزدانه بودن آن است. محققاني كه اين ادعا را دارند بر اين باور هستند كه ريزدانه بودن وردنت مي‌تواند سبب كاهش كارآيي در تعدادي از كارهاي مرتبط با پردازش زبان‌هاي طبيعي شود. بنابراين آن‌ها به دنبال روش‌هايي هستند تا بتوانند وردنت را به شكل مناسبي درشت‌دانه كنند. از ديگر ايرادهاي مهم كه محققان به آن اشاره دارند كامل نبودن وردنت است. به همين جهت تمايل زيادي به استفاده از منابع خارجي براي پيوند با وردنت در جهت تقويت آن وجود دارد. در اين پژوهش‌ ما دو رويكرد را به منظور حل مشكلات مطرح شده ارائه مي‌دهيم. در رويكرد اول روشي جديد براي تهيه هم‌نشيم‌هاي بزرگ به منظور درشت‌دانه كردن وردنت با استفاده از جاسازي و خوشه‌بندي ارائه مي‌دهيم و در رويكرد دوم نيز روشي براي توسعه وردنت و كنار هم قرار دادن هم‌نشيم‌هاي مرتبط بدون استفاده از منابع خارجي ارائه مي‌كنيم. در حقيقت ما به جاي استفاده از منبع خارجي براي مفهوم‌بندي و تقويت وردنت از ساختار متني موجود در هم‌نشيم‌ها استفاده مي‌كنيم. براي ارزيابي وردنت‌هاي جديد ايجاد شده در دو رويكرد مطرح شده، از يك ابهام‌زدا بهره‌ برده‌ايم. در رويكرد اول به جاي استفاده از 117 هزار هم‌نشيم استاندارد موجود در وردنت از 45 هم‌نشيم بزرگ استفاده كرده‌ايم. با توجه به كاهش ابعاد وردنت جديد ايجاد شده، سرعت اجراي ابهام‌زدا 556 برابر بيشتر از زماني است كه از وردنت استاندارد استفاده مي‌كند و اين در حالي است كه سنجه-اف تنها در حدود 1% كاهش را از خود نشان مي‌دهد. همچنين، هم‌نشيم‌هاي بزرگ ايجاد شده توسط ما دقت بالاتري را نسبت به هم‌نشيم‌هاي بزرگ ايجاد شده توسط انسان ارائه مي‌دهند. در رويكرد دوم نيز وردنت تقويت شده را به عنوان ورودي به ابهام‌زدا مي‌دهيم. نتايج حاصل شده از اين رويكرد بيانگر آن است كه سنجه-اف‌ پس از اضافه كردن روابط مرتبط به مقدار مشخص به وردنت 0.1% افزايش مي‌يابد.
  • تاريخ ورود اطلاعات
    1399/03/24
  • عنوان به انگليسي
    A new algorithm to conceptualize WordNet lexical database
  • تاريخ بهره برداري
    3/4/2020 12:00:00 AM
  • دانشجوي وارد كننده اطلاعات

    مهرداد محمديان

  • چكيده به لاتين
    The widespread use of WordNet as a human-readable and online lexical database has had significant effects on countless Natural Language Processing (NLP) tasks in recent years, and still, it is the center of attention. However, many researchers are reluctant to use WordNet because of some drawbacks in that. The first reason that researchers are unwilling to benefit from WordNet is that WordNet is too fine-grained, which can reduce the efficiency of some downstream tasks. Thus, they seek some methods which can conceptualize (coarsen) WordNet. The other reason that researchers are not enthusiastic about using WordNet is the incompleteness of WordNet. As a result, they follow some methods to enrich (conceptualize) WordNet with other external resources. In this thesis, we have offered two approaches to resolve the drawbacks. In the first approach, we have proposed a new method to create supersenses of WordNet. On the other hand, WordNet provides us with supersenses in which whole synsets have been clustered to 45 supersenses by linguists. Also, the number of our supersenses is as same as WordNet’s supersenses. In the second approach, we have introduced a new method to develop WordNet without using any external resources. We have taken full advantage of the texts in each synset instead of using other resources. For evaluation of the quality of our supersenses and enriched WordNet, we have used UKB as a Word Sense Disambiguation, which is state-of-the-art in knowledge-based WSD models. Since we have benefited from our 45 supersenses instead of 117K synsets of WordNet in the first approach, the running time of UKB is 556 times as fast as UKB with standard WordNet and F1-score has decreased marginally by approximately 1%. Furthermore, our results show that F1-score has increased by 0.1% after enriching and injecting a specific number of relations into WordNet in the second approach.