مجيد عسگري بيدهندي

عنوان

ساخت خودكار پايگاه‌هاي دانش با استفاده از تكنيك‌هاي استخراج آزاد اطلاعات

مقطع تحصيلي

دكترا

رشته تحصيلي

مهندسي كامپيوتر- هوش مصنوعي و رباتيك

سال تحصيل

1390

تاريخ دفاع

1400/4/29

استاد راهنما

بهروز مينايي بيدگلي

دانشكده

پرديس دانشگاهي - دانشكده مهندسي كامپيوتر

چكيده

استخراج خودكار اطلاعاتِ ساخت‌يافته از سندهاي متني بدون ساختار بدون محدودشدن به دامنه‌ي ازپيش‌تعيين‌شده، استخراج آزاد اطلاعات ناميده مي‌شود. موجوديت‌ها و گزاره‌هاي مشخص ممكن است به شكل‌هاي گوناگون در اطلاعات توليدشده توسط استخراج‌گرهاي آزاد اطلاعات ظاهر شوند، اما كانوني‌سازي اين اطلاعات (نگاشت آن‌ها به موجوديت‌ها و روابط گراف دانش) مي‌تواند منجر به ساده‌تر شدن، دقيق‌تر شدن، و سريع‌تر شدن عمليات‌هاي پردازش دانش همچون بازيابي دانش، استدلال خودكار، و بازنمايي دانش گردد. هدف از استخراج آزاد دانش، توليد سه‌تايي‌هاي گراف‌دانشي موجوديت-رابطه-موجوديت بدون محدودشدن به دامنه‌ي ازپيش‌تعيين‌شده مي‌باشد. مهمترين نوآوري اين پژوهش، ارائه‌ي يك رويكرد جديد براي استخراج آزاد دانش است. اين رويكرد با كانوني‌سازي سه‌تايي‌هاي توليد شده توسط استخراج آزاد اطلاعات و همجوشي آن با ساير روش‌هاي استخراج آزاد دانش، باعث بهبود عملكرد كلي فرآيند استخراج آزاد دانش بر اساس معيار F1 شده است. علاوه بر رويكرد جديد ارائه شده، چند روش نوآورانه نيز در اين پژوهش ارائه شده است. به عنوان نوآوري روشي اول، در اين رساله با بازكاربست يك پيمانه‌ي همجوشي موجود در مرز دانشي براي استخراج اطلاعات، يك پيمانه‌ي همجوشي مستقل از آستانه را در مسئله استخراج آزاد دانش معرفي نموده‌ايم. نوآوري ديگر عبارت است از ارائه‌ي يك روش جديد مستقل از زبان و بي‌ناظر براي پيونددهي موجوديت. اين روش تنها با استفاده از متن مقالات ويكي‌پديا و پيوندهاي دروني ميان صفحات، عمليات ابهام زدايي موجوديت را انجام مي‌دهد. در اين روش، غير از داده‌هاي موجود در ويكي‌پديا، نياز به نظارت انساني يا ساخت پيكره‌ي متني ديگري وجود ندارد و قابل اعمال شدن به زبان‌هاي كم‌منبع مي‌باشد. نوآوري بعدي اين پژوهش، ارائه‌ي يك روش جديد براي استفاده توأمان از تجزيه‌ي وابستگي و تجزيه‌ي سازه‌اي براي عمليات «استخراج آزاد دانش با استفاده از استخراج آزاد اطلاعات» است. به عنوان نوآوري ديگر، يك روش جديد براي كانوني‌سازي روابط توليد شده توسط استخراج‌گر آزاد اطلاعات، به گزاره‌هاي گراف دانش معرفي شده است. اين روش با كمك داده‌هاي توليد شده توسط استخراج‌گر دورناظر دانش، يك رده‌بند را براي كانوني‌سازي روابط آموزش مي‌دهد. استفاده از عبارات منظم توكن محور، كه توسط افراد خبره توسعه داده شده و توسط يك آزمايشگاه زبان‌شناسي معتبر تاييد شده‌اند، براي استخراج آزاد دانش در زبان فارسي نوآوري ديگر پيشنهاد شده در اين رساله است. آخرين نوآوري معرفي شده در اين رساله، ارائه‌ي روشي است به منظور بهبود معيار F1 در مسأله‌ي استخراج آزاد دانش در زبان فارسي. همچنين در اين رساله اولين مجموعه‌ي داده‌ي طلايي استخراج آزاد دانش در زبان فارسي ارائه شده است. نتايج آزمايش‌ها حاكي از برتري رويكرد ارائه شده نسبت به ساير رويكرد‌هاي مرز دانشي، و نيز برتري روش‌هاي ارائه شده نسبت به روش‌هاي موجود در مرزهاي دانش مي‌باشد.

تاريخ ورود اطلاعات

1401/02/17

عنوان به انگليسي

Automated construction of knowledge bases using techniques of Open Information Extraction

تاريخ بهره برداري

7/20/2022 12:00:00 AM

دانشجوي وارد كننده اطلاعات

مجيد عسگري بيدهندي

Name: مجيد عسگري بيدهندي
Author: مجيد عسگري بيدهندي

چكيده به لاتين

Automatic extraction of structured information from unstructured or semi-structured text documents without being limited to a predefined domain is called open information extraction (OIE). Specific entities and predicates may appear in various forms in the information generated by open information extractors. Canonicalizing this information (mapping them to knowledge graph entities and predicates) can make knowledge processing operations, such as knowledge retrieval, automated reasoning, and knowledge representation easier, more accurate, and faster. The purpose of open knowledge extraction (OKE) is to produce knowledge-graph-triples of entity-relationship-entity without being limited to a predetermined domain. The most important innovation of this research is to present a new approach to Open Knowledge Extraction (OKE). This approach has improved the overall performance of the OKE process based on the F1 measure by canonicalizing the triples produced by OIE and integrating it with other OKE methods. In addition to the new proposed approach, several innovative methods are also presented in this research. As the first innovative method of this dissertation, by re-applying a fusion module in the information extraction, we have introduced a threshold-independent fusion module for the OKE. Another innovation is the introduction of a new, language-agnostic, unsupervised method for Entity Linking (EL). This method performs the Entity Disambiguation (ED) only by using the text of Wikipedia articles and internal links between the pages. In this way, there is no need for human supervision or the construction of a corpus, and it can be applied in low-resource languages. The next innovation of this research is to present a new method for "OKE using OIE" by a joint application of dependency and constituency parsing trees. As another innovation, a new method for canonicalizing the relationships produced by OIE to the predicates of the knowledge graph. This approach, with the help of data generated by a distant-supervision knowledge extractor, trains a classifier to canonicalize relationships. The use of token-based regular expressions, developed by experts and approved by a reputable linguistics laboratory, for the OKE in the Persian language, is another innovation proposed in this dissertation. The latest innovation presented in this dissertation provides a method to improve the F1 measure in the problem of OKE in the Persian language. Also, the first gold dataset for the OKE in the Persian language is presented. The results of the experiments indicate the superiority of the proposed approach over state-of-the-art OKE approaches, as well as the superiority of the proposed methods over the state-of-the-art methods.

كليدواژه هاي فارسي

استخراج آزاد اطلاعات , استخراج آزاد دانش , استخراج رابطه , پيونددهي موجوديت , كانوني سازي روابط , پايگاه دانش

كليدواژه هاي لاتين

Open Information Extraction , Open Knowledge Extraction , relation extraction , Entity Linking , Relation Canonicalization , Knowledge Base

Author

Majid Asgari-Bidhendi

SuperVisor

Behrouz Minaei-Bidgoli

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=26433&Field=0&DTC=6