-
شماره ركورد
27885
-
پديد آورنده
اميدرضا روشني طلب
-
عنوان
ارايه روشي مبتني بر يادگيري عميق براي استخراج سه تايي هاي دانشي از متن خام مبتني بر گراف دانش فارسي
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
مهندسي كامپيوتر - گرايش هوش مصنوعي
-
سال تحصيل
ورودي 1398
-
تاريخ دفاع
1401/07/20
-
استاد راهنما
دكتر بهروز مينايي بيدگلي
-
استاد مشاور
دكتر عادل تركمان رحماني
-
دانشكده
مهندسي كامپيوتر
-
چكيده
استخراج رابطه يكي از وظايف مهم در پردازش زبانهاي طبيعي است. از اطلاعات استخراج شده ميتوان پايگاه هاي دانش براي علوم ديگر ساخت. به عنوان مثال براي علوم پزشكي، ميكروبيولوژي پايگاهي شامل اطلاعات آن دامنه ايجاد كرد تا به محققين آن حوزه كمك كرده و سرعت گسترش آن حوزه را بهبود دهيم. در اين پژوهش ما روي استخراج رابطه روي متون آزاد و ايجاد پايگاه دانش عمومي براي كمك به وظايف پردازش زبان طبيعي تمركز ميكنيم خروجي اين پژوهش يك روش براي استخراج سه تايي در زبان فارسي است. در زبان فارسي كه منابع محدودي وجود دارد، تعداد روشهاي كم و دقتشان نيز پايين است. مدلهاي استخراج رابطه جملات را همراه با موجوديتهاي نامزد به عنوان ورودي گرفته و نوع رابطه را ميان دو موجوديت نامزد برمي گردانند. ايده ما براي بهبود اين مدلها استفاده از جانمايي گراف دانش است اين كار باعث بهبود رده بندي رابطه براي روابط با مثالهاي آموزشي محدود شد به بيان ديگر، علاوه بر ساير پژوهشها كه جانمايي جمله و موجوديتهاي آن وارد رده بند رابطه ميشدند در اين كار موجوديتها توسط جانماگر گراف دانش جانمايي سپس بردارشان نيز به ورودي رده بند اضافه ميشوند براي اين كار ابتدا دادگان بخش آموزش تبديل به گراف دانش شده سپس مدل TransE آن را جانمايي كرده و به رده بند تحت عنوان ويژگي كمكي ميدهد. براي موجوديتهايي كه مدل آنها را مشاهده نكرده يك مبدل فضا از BERT به TransE نيز معرفي كرديم. در اين پژوهش از دادگان جمع آوري شده آزمايشگاه داده كاوي دانشگاه علم و صنعت استفاده شده است. به دليل غني بودن گراف دانش و كافي بودن اطلاعات جانمايي ،آن كلاسهايي از رابطه كه در دادگان آموزشي كم بودند دقتشان بالاتر رفت ولي براي كلاسهايي كه مثال به تعداد كافي داشتند دقت عموما كاهش داشت. در نهايت بدليل آن كه بيشتر كلاسها دادگان كمي در دادگان آموزشي دارند دقت كل بالاتر رفت. دقت F1 بهترين مدل قبلي كه 77.6 بود به 78.5 رسيد.
-
تاريخ ورود اطلاعات
1401/11/24
-
عنوان به انگليسي
Presenting a method based on deep learning to extract knowledge triplets from raw text based on persian knowledge graph
-
تاريخ بهره برداري
10/12/2023 12:00:00 AM
-
دانشجوي وارد كننده اطلاعات
اميدرضا روشني طلب
-
چكيده به لاتين
Relation extraction is one of the important tasks in natural language processing. The extracted information can be used to build knowledge bases for other sciences. For example, for medical sciences, microbiology created a database containing the information of that domain to help the researchers of that field and to improve the speed of development of that field. This research focuses on relation extraction from open texts and building a general knowledge base to assist natural language processing tasks. The output of this research is a method for extracting triplets in the Persian language. The number of methods and accuracy are limited in the Persian language, where there are limited sources. Relation extraction models take sentences along with candidate entities as input and return the type of relationship between two candidate entities. Our idea to improve these models is to use knowledge graph placement. This improved relation classification for relations with limited training examples. In other words, in addition to other research where the embedding of the sentence and its entities were entered into the relation classifier, in this work, the entities are placed by the graph embedder, and then their vectors are also concatenated to the input of the classifier. For this, first, the data of the training section is converted into a knowledge graph, then the TransE model places it and gives it to the classification under the title of the auxiliary feature. For entities not observed by the model, we also introduced a space converter from BERT to TransE. In this research, the data collected from the data mining laboratory of the University of Science and Technology have been used. Due to the richness of the knowledge graph and the sufficiency of its location information, the accuracy of the relation classes that were few in the training data increased, but the accuracy generally decreased for the classes that had a sufficient number of examples. Finally, due to the fact that most of the classes have few data in the training data, the overall accuracy increased. The F1 accuracy of the previous best model, which was 77.6, reached 78.5.
-
كليدواژه هاي فارسي
گراف دانش , استخراج رابطه , استخراج اطلاعات آزاد
-
كليدواژه هاي لاتين
knowledge graph , relation extraction , representation learning
-
Author
Omid Reza Roshani Talab
-
SuperVisor
Behrouz Minaei-Bidgoli
-
لينک به اين مدرک :