رضا مرادي

عنوان

بهبود تشخيص‌ موجوديت‌هاي‌ اسمي در زبان فارسي با استفاده از نشانه‌هاي خاص زبان

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

هوش مصنوعي و رباتيك

سال تحصيل

1398

تاريخ دفاع

1398/7/16

استاد راهنما

دكتر بهروز مينايي بيدگلي

استاد مشاور

دكتر محمد طاهر پيله ور

دانشكده

كامپيوتر

چكيده

سامانه تشخيص‌ ‌موجوديت‌هاي‌ اسمي ابزاري براي پردازش‌ زبان طبيعي است. اين ابزار، موجوديت‌هاي اسمي يا همان اسامي خاص موجود در متن، مانند اسامي افراد، سازمان‌ها و مكان‌ها را از متون بدون ساختار استخراج مي‌نمايد. امروزه با وجود كارهاي محدودي كه در اين ضمينه براي زبان فارسي انجام شده است، روش‌هاي موجود نتوانسته‌اند به دقت‌هاي مطلوبي نسبت به زبان‌هايي اروپايي مانند زبان انگليسي دست يابند. يكي از دلايل اصلي اين مسئله كمبود پيكره‌هاي متني مناسب بوده است كه تا حدودي در سال‌هاي اخير مرتفع شده است. دليل ديگر اين مسئله عدم توجه كافي پژوهشگران حوزه پردازش زبان فارسي به استفاده از روش‌هاي به‌روز، به خصوص روش‌هاي مبتني بر شبكه‌هاي عصبي عميق است. اين در حالي است كه استفاده از شبكه‌هاي عصبي عميق در حوزه‌هايي مانند پردازش تصوير، سيگنال، زبان طبيعي و حتي بسياري از حوزه‌هاي ديگر منجر به بهبودهاي قابل توجهي شده است. به همين دليل در اين پايان‌نامه چندين معماري مبتني بر يادگيري عميق براي تشخيص موجوديت‌هاي اسمي در زبان فارسي ارائه شده است. در توسعه اين معماري‌ها از دو رويكرد مبتني بر نشانه‌هاي خاص زبان و مبتني بر بافتار استفاده شده است. رويكرد اول سعي در استفاده از ويژگي‌هاي حاصل از نشانه‌هاي نحوي، ساختاري، واژگاني و معنايي در تشخيص موجوديت‌هاي اسمي به منظور قدرت‌بخشي بيشتر به اين سامانه را دارد. در واقع اين رويكرد بر استفاده از تعبيه اطلاعات حاصل از اين نشانه‌هاي خاص زبان شامل اطلاعات مبتني بر درخت وابستگي، ادات سخن، واژه‌نامه‌ها و خود معناي كلمات استوار است. اين رويكرد توانسته با رسيدن به 79.98درصد در معيار F1، دقت مرزهاي دانش را به ميزان 2.53 درصد افزايش دهد. اين در حالي است كه رويكرد دوم تلاش دارد با بهره‌گيري از يادگيري انتقالي از بردارهاي تعبيه كلمات ساخته شده براي مدل زباني در مدل برت براي استفاده از اطلاعات مبتني بر بافتار جملات استفاده كند كه توانسته با رسيدن به دقت 80.17 درصد در معيارF1 دقت مرزهاي دانش را به ميزان 2.72 درصد در حوزه تشخيص موجوديت‌هاي اسمي زبان فارسي بهبود دهد.

تاريخ ورود اطلاعات

1398/08/26

عنوان به انگليسي

Improving Named Entity Recognition in Persian Language Using Language-specific Clues

تاريخ بهره برداري

11/16/2019 12:00:00 AM

دانشجوي وارد كننده اطلاعات

رضا مرادي

Name: رضا مرادي
Author: رضا مرادي

چكيده به لاتين

The detection system of named entities is a tool for processing natural language. It extract named entities or the same specific names in the text, such as individuals, organizations, and locations from non-structured texts. today, despite the limited work done in this regard for persian language, the existing methods have not been able to achieve desirable effects on european languages such as english language. One of the main reasons for this problem is the lack of proper text corpora that have been studied in some way in recent years. another reason for this issue is the lack of adequate attention researchers in persian language processing field using newest approaches, especially approaches based on deep neural networks. While the use of deep neural networks in domains such as image processing, signal, natural language, and even many other areas has led to significant improvements. for this reason, several architecture based on deep neural network have been proposed to identify named entities in persian language. In the development of these architectures, two approaches are based on specific language clues and context-based methode. the first approach tries to use the features of syntactic, structural, gazetteers and semantic features in detecting named entities in order to further enhance the system. in fact, this approach is based on the embedding of information derived from these specific language clues including information based on the dependency tree, the part of speech, gazetteers, and the meaning of words. This approach has managed to increase the accuracy of the knowledge boundaries by 2.53 %, reaching 79.98 percent in the scale. While the second approach attempts to use transfer learning from the embedding of the words constructed for the language model in the BERT model to use information based on the context words that has managed to improve the accuracy of 80.17 percent in the scale.

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=21306&Field=0&DTC=6