شماره ركورد
21306
شماره راهنما(اين فيلد مربوط به كارشناس ميباشد لطفا آن را خالي بگذاريد)
21306
پديد آورنده
رضا مرادي
عنوان
بهبود تشخيص موجوديتهاي اسمي در زبان فارسي با استفاده از نشانههاي خاص زبان
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
هوش مصنوعي و رباتيك
سال تحصيل
1398
تاريخ دفاع
1398/7/16
استاد راهنما
دكتر بهروز مينايي بيدگلي
استاد مشاور
دكتر محمد طاهر پيله ور
دانشكده
كامپيوتر
چكيده
سامانه تشخيص موجوديتهاي اسمي ابزاري براي پردازش زبان طبيعي است. اين ابزار، موجوديتهاي اسمي يا همان اسامي خاص موجود در متن، مانند اسامي افراد، سازمانها و مكانها را از متون بدون ساختار استخراج مينمايد. امروزه با وجود كارهاي محدودي كه در اين ضمينه براي زبان فارسي انجام شده است، روشهاي موجود نتوانستهاند به دقتهاي مطلوبي نسبت به زبانهايي اروپايي مانند زبان انگليسي دست يابند.
يكي از دلايل اصلي اين مسئله كمبود پيكرههاي متني مناسب بوده است كه تا حدودي در سالهاي اخير مرتفع شده است. دليل ديگر اين مسئله عدم توجه كافي پژوهشگران حوزه پردازش زبان فارسي به استفاده از روشهاي بهروز، به خصوص روشهاي مبتني بر شبكههاي عصبي عميق است. اين در حالي است كه استفاده از شبكههاي عصبي عميق در حوزههايي مانند پردازش تصوير، سيگنال، زبان طبيعي و حتي بسياري از حوزههاي ديگر منجر به بهبودهاي قابل توجهي شده است.
به همين دليل در اين پاياننامه چندين معماري مبتني بر يادگيري عميق براي تشخيص موجوديتهاي اسمي در زبان فارسي ارائه شده است. در توسعه اين معماريها از دو رويكرد مبتني بر نشانههاي خاص زبان و مبتني بر بافتار استفاده شده است. رويكرد اول سعي در استفاده از ويژگيهاي حاصل از نشانههاي نحوي، ساختاري، واژگاني و معنايي در تشخيص موجوديتهاي اسمي به منظور قدرتبخشي بيشتر به اين سامانه را دارد. در واقع اين رويكرد بر استفاده از تعبيه اطلاعات حاصل از اين نشانههاي خاص زبان شامل اطلاعات مبتني بر درخت وابستگي، ادات سخن، واژهنامهها و خود معناي كلمات استوار است. اين رويكرد توانسته با رسيدن به 79.98درصد در معيار F1، دقت مرزهاي دانش را به ميزان 2.53 درصد افزايش دهد.
اين در حالي است كه رويكرد دوم تلاش دارد با بهرهگيري از يادگيري انتقالي از بردارهاي تعبيه كلمات ساخته شده براي مدل زباني در مدل برت براي استفاده از اطلاعات مبتني بر بافتار جملات استفاده كند كه توانسته با رسيدن به دقت 80.17 درصد در معيارF1 دقت مرزهاي دانش را به ميزان 2.72 درصد در حوزه تشخيص موجوديتهاي اسمي زبان فارسي بهبود دهد.
تاريخ ورود اطلاعات
1398/08/26
عنوان به انگليسي
Improving Named Entity Recognition in Persian Language Using Language-specific Clues
تاريخ بهره برداري
11/16/2019 12:00:00 AM
دانشجوي وارد كننده اطلاعات
رضا مرادي
چكيده به لاتين
The detection system of named entities is a tool for processing natural language. It extract named entities or the same specific names in the text, such as individuals, organizations, and locations from non-structured texts. today, despite the limited work done in this regard for persian language, the existing methods have not been able to achieve desirable effects on european languages such as english language.
One of the main reasons for this problem is the lack of proper text corpora that have been studied in some way in recent years. another reason for this issue is the lack of adequate attention researchers in persian language processing field using newest approaches, especially approaches based on deep neural networks. While the use of deep neural networks in domains such as image processing, signal, natural language, and even many other areas has led to significant improvements.
for this reason, several architecture based on deep neural network have been proposed to identify named entities in persian language. In the development of these architectures, two approaches are based on specific language clues and context-based methode. the first approach tries to use the features of syntactic, structural, gazetteers and semantic features in detecting named entities in order to further enhance the system. in fact, this approach is based on the embedding of information derived from these specific language clues including information based on the dependency tree, the part of speech, gazetteers, and the meaning of words. This approach has managed to increase the accuracy of the knowledge boundaries by 2.53 %, reaching 79.98 percent in the scale.
While the second approach attempts to use transfer learning from the embedding of the words constructed for the language model in the BERT model to use information based on the context words that has managed to improve the accuracy of 80.17 percent in the scale.