-
شماره ركورد
26433
-
پديد آورنده
مجيد عسگري بيدهندي
-
عنوان
ساخت خودكار پايگاههاي دانش با استفاده از تكنيكهاي استخراج آزاد اطلاعات
-
مقطع تحصيلي
دكترا
-
رشته تحصيلي
مهندسي كامپيوتر- هوش مصنوعي و رباتيك
-
سال تحصيل
1390
-
تاريخ دفاع
1400/4/29
-
استاد راهنما
بهروز مينايي بيدگلي
-
دانشكده
پرديس دانشگاهي - دانشكده مهندسي كامپيوتر
-
چكيده
استخراج خودكار اطلاعاتِ ساختيافته از سندهاي متني بدون ساختار بدون محدودشدن به دامنهي ازپيشتعيينشده، استخراج آزاد اطلاعات ناميده ميشود. موجوديتها و گزارههاي مشخص ممكن است به شكلهاي گوناگون در اطلاعات توليدشده توسط استخراجگرهاي آزاد اطلاعات ظاهر شوند، اما كانونيسازي اين اطلاعات (نگاشت آنها به موجوديتها و روابط گراف دانش) ميتواند منجر به سادهتر شدن، دقيقتر شدن، و سريعتر شدن عملياتهاي پردازش دانش همچون بازيابي دانش، استدلال خودكار، و بازنمايي دانش گردد. هدف از استخراج آزاد دانش، توليد سهتاييهاي گرافدانشي موجوديت-رابطه-موجوديت بدون محدودشدن به دامنهي ازپيشتعيينشده ميباشد. مهمترين نوآوري اين پژوهش، ارائهي يك رويكرد جديد براي استخراج آزاد دانش است. اين رويكرد با كانونيسازي سهتاييهاي توليد شده توسط استخراج آزاد اطلاعات و همجوشي آن با ساير روشهاي استخراج آزاد دانش، باعث بهبود عملكرد كلي فرآيند استخراج آزاد دانش بر اساس معيار F1 شده است. علاوه بر رويكرد جديد ارائه شده، چند روش نوآورانه نيز در اين پژوهش ارائه شده است. به عنوان نوآوري روشي اول، در اين رساله با بازكاربست يك پيمانهي همجوشي موجود در مرز دانشي براي استخراج اطلاعات، يك پيمانهي همجوشي مستقل از آستانه را در مسئله استخراج آزاد دانش معرفي نمودهايم. نوآوري ديگر عبارت است از ارائهي يك روش جديد مستقل از زبان و بيناظر براي پيونددهي موجوديت. اين روش تنها با استفاده از متن مقالات ويكيپديا و پيوندهاي دروني ميان صفحات، عمليات ابهام زدايي موجوديت را انجام ميدهد. در اين روش، غير از دادههاي موجود در ويكيپديا، نياز به نظارت انساني يا ساخت پيكرهي متني ديگري وجود ندارد و قابل اعمال شدن به زبانهاي كممنبع ميباشد. نوآوري بعدي اين پژوهش، ارائهي يك روش جديد براي استفاده توأمان از تجزيهي وابستگي و تجزيهي سازهاي براي عمليات «استخراج آزاد دانش با استفاده از استخراج آزاد اطلاعات» است. به عنوان نوآوري ديگر، يك روش جديد براي كانونيسازي روابط توليد شده توسط استخراجگر آزاد اطلاعات، به گزارههاي گراف دانش معرفي شده است. اين روش با كمك دادههاي توليد شده توسط استخراجگر دورناظر دانش، يك ردهبند را براي كانونيسازي روابط آموزش ميدهد. استفاده از عبارات منظم توكن محور، كه توسط افراد خبره توسعه داده شده و توسط يك آزمايشگاه زبانشناسي معتبر تاييد شدهاند، براي استخراج آزاد دانش در زبان فارسي نوآوري ديگر پيشنهاد شده در اين رساله است. آخرين نوآوري معرفي شده در اين رساله، ارائهي روشي است به منظور بهبود معيار F1 در مسألهي استخراج آزاد دانش در زبان فارسي. همچنين در اين رساله اولين مجموعهي دادهي طلايي استخراج آزاد دانش در زبان فارسي ارائه شده است. نتايج آزمايشها حاكي از برتري رويكرد ارائه شده نسبت به ساير رويكردهاي مرز دانشي، و نيز برتري روشهاي ارائه شده نسبت به روشهاي موجود در مرزهاي دانش ميباشد.
-
تاريخ ورود اطلاعات
1401/02/17
-
عنوان به انگليسي
Automated construction of knowledge bases using techniques of Open Information Extraction
-
تاريخ بهره برداري
7/20/2022 12:00:00 AM
-
دانشجوي وارد كننده اطلاعات
مجيد عسگري بيدهندي
-
چكيده به لاتين
Automatic extraction of structured information from unstructured or semi-structured text documents without being limited to a predefined domain is called open information extraction (OIE). Specific entities and predicates may appear in various forms in the information generated by open information extractors. Canonicalizing this information (mapping them to knowledge graph entities and predicates) can make knowledge processing operations, such as knowledge retrieval, automated reasoning, and knowledge representation easier, more accurate, and faster. The purpose of open knowledge extraction (OKE) is to produce knowledge-graph-triples of entity-relationship-entity without being limited to a predetermined domain. The most important innovation of this research is to present a new approach to Open Knowledge Extraction (OKE). This approach has improved the overall performance of the OKE process based on the F1 measure by canonicalizing the triples produced by OIE and integrating it with other OKE methods. In addition to the new proposed approach, several innovative methods are also presented in this research. As the first innovative method of this dissertation, by re-applying a fusion module in the information extraction, we have introduced a threshold-independent fusion module for the OKE. Another innovation is the introduction of a new, language-agnostic, unsupervised method for Entity Linking (EL). This method performs the Entity Disambiguation (ED) only by using the text of Wikipedia articles and internal links between the pages. In this way, there is no need for human supervision or the construction of a corpus, and it can be applied in low-resource languages. The next innovation of this research is to present a new method for "OKE using OIE" by a joint application of dependency and constituency parsing trees. As another innovation, a new method for canonicalizing the relationships produced by OIE to the predicates of the knowledge graph. This approach, with the help of data generated by a distant-supervision knowledge extractor, trains a classifier to canonicalize relationships. The use of token-based regular expressions, developed by experts and approved by a reputable linguistics laboratory, for the OKE in the Persian language, is another innovation proposed in this dissertation. The latest innovation presented in this dissertation provides a method to improve the F1 measure in the problem of OKE in the Persian language. Also, the first gold dataset for the OKE in the Persian language is presented. The results of the experiments indicate the superiority of the proposed approach over state-of-the-art OKE approaches, as well as the superiority of the proposed methods over the state-of-the-art methods.
-
كليدواژه هاي فارسي
استخراج آزاد اطلاعات , استخراج آزاد دانش , استخراج رابطه , پيونددهي موجوديت , كانوني سازي روابط , پايگاه دانش
-
كليدواژه هاي لاتين
Open Information Extraction , Open Knowledge Extraction , relation extraction , Entity Linking , Relation Canonicalization , Knowledge Base
-
Author
Majid Asgari-Bidhendi
-
SuperVisor
Behrouz Minaei-Bidgoli
-
لينک به اين مدرک :