محمد ابراهيمي

عنوان

روشي جديد براي برچسب‌زني نقش‌هاي معنايي مبتني بر يادگيري بين‌زباني

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

مهندسي كامپيوتر - هوش مصنوعي و رباتيكز

سال تحصيل

1399

تاريخ دفاع

1401/12/21

استاد راهنما

دكتر بهروز مينايي بيدگلي

دانشكده

مهندسي كامپيوتر

چكيده

برچسب‌زني نقش معنايي يكي از مسئله‌هاي اساسي در پردازش زبان طبيعي و گامي مهم در جهت درك زبان طبيعي است كه وظيفه پاسخ‌دهي خودكار به پرسش‌هايي نظير «چه كسي، چه‌ كرد، با چه كسي، در چه زمان و مكاني، چرا و چگونه» را به عهده دارد. در سال‌هاي اخير با توجه به اينكه براي زبان‌هاي محدودي داده حاشيه‌نويسي شده موجود است و در بسياري از زبان‌ها با كمبود داده حاشيه‌نويسي شده مواجهيم تمركز پژوهشگران بر روي طراحي روش‌هاي بين‌زباني بوده است. هدف برچسب‌زني نقش معنايي بين‌زباني اين است كه از منابع غني زبان‌هايي مانند انگليسي كه تعداد زيادي نمونه باكيفيت دارند استفاده كند تا نتايج را در زبان‌هايي با منابع محدود بهبود دهد. رويكردهاي متنوعي براي برچسب‌زني نقش معنايي بين‌زباني ارائه شده‌اند كه عبارت‌اند از: تصويركردن حاشيه‌نويسي، رويكردهاي مبتني بر ترجمه و انتقال مدل. در اين پژوهش يك الگوريتم يادگيري عميق مبتني بر انتقال مدل ارائه شده است كه در آن مدل را طوري طراحي شده است كه توانايي اين را داشته باشد كه به طور هم‌زمان روي چندين زبان آموزش ببيند و براي بهينه‌سازي شبكه از داده‌هاي زبان‌هاي مختلف استفاده كند. در اين پژوهش از بخش انگليسي مجموعه داده چندزباني CoNLL2009 و پيكره نقش‌هاي معنايي زبان فارسي استفاده شده است. در مدل پيشنهادي ما به جاي استفاده از تمام مجموعه داده آموزشي و به جهت انجام برچسب‌زني نقش معنايي بين‌زباني در هر دو آزمايش فقط از ده درصد از مجموعه داده آموزشي استفاده كرديم. به تبعيت از تحقيقات پيشينيان، در زبان انگليسي از تقسيم‌بندي توافقي مجموعه داده آموزش، اعتبارسنجي و آزمون را پيروي كرده و در زبان فارسي از تنظيمات ده درصد داده آزمون، ده درصد داده اعتبارسنجي و 80 درصد داده آموزشي استفاده كرديم كه معيار F1 در حالت تك‌زباني برابر 71.76 و در حالت بين‌زباني با ده درصد داده انگليسي برابر 74.11 به دست آمد. همچنين اگر از تمام داده انگليسي موجود استفاده كنيم معيار F1 به 75.94 مي‌رسد؛ بنابراين اين مدل توانست با بهره‌گيري از مجموعه داده انگليسي نتايج فارسي را نسبت به حالت تك‌زباني 4.18 درصد بهبود دهد. با انجام آزمايش‌هاي مشابه با استفاده از مدل پيشنهادي نيك‌سيرت و همكاران كه بهترين مدل برچسب‌زني نقش معنايي در زبان فارسي است معيار F1 برابر 69.71 به دست آورديم؛ بنابراين مدل پيشنهادي ما، در حالت تك‌زباني 2.05 درصد و در حالت بين‌زباني 6.23 درصد نسبت به اين مدل بهبود ايجاد كرده¬است. با اين وجودبه¬علاوه، ازآنجاكه مدل ما چهار مرحله برچسب‌زني نقش معنايي را بر خلاف پژوهش نيك‌سيرت و همكاران كه دو مرحله اول را انجام شده فرض مي‌كند، اختلاف واقعي دو مدل از 6.23 به‌مراتب بالاتر است.

تاريخ ورود اطلاعات

1402/04/06

عنوان به انگليسي

A New Method for Cross-Lingual-based Semantic Role Labeling

تاريخ بهره برداري

3/11/2024 12:00:00 AM

دانشجوي وارد كننده اطلاعات

محمد ابراهيمي

Name: محمد ابراهيمي
Author: محمد ابراهيمي

چكيده به لاتين

Semantic Role Labeling is one of the fundamental issues in natural language processing and a key step towards understanding natural language, and is responsible for automatically answering questions such as "who, did what, to whom, when, where, why, and how". In recent years researchers have focused on designing Cross-Lingual methods for Semantic Role Labeling. In Cross-Lingual Semantic Role Labeling we want to use the resources of a language like English that has many high-quality samples to improve the results in low-resource language. Various approaches have been proposed for cross-lingual semantic role labeling, including annotation projection, translation-based approaches, and model transfer. In this research, a deep learning algorithm based on model transfer is proposed, in which the structure of the model allows it to be trained on multiple languages simultaneously and uses data from different languages to optimize the network. We use the English part of the CoNLL2009 multilingual dataset and the corpus of Persian Proposition Bank. In the proposed model, we used only 10% of the training dataset instead of using the entire dataset. Following previous research, we followed the usual division of the training, validation, and testing datasets in English, and used 10% test data, 10% validation data, and 80% training data settings in Persian, resulting in an F1 score of 71.76 in monolingual mode and 74.11 in cross-lingual mode with 10% English data. Additionally, if we use all available English data, the F1 score reaches 75.94. Therefore, this model improved Persian results by 4.18% compared to the monolingual mode, by utilizing English data. By conducting similar experiments using Nicksirat's model, which is the best semantic labeling model in Persian, we achieved an F1 score of 69.71. Therefore, our proposed model improved by 2.05% in monolingual mode and 6.23% in cross-lingual mode compared to this model. However, since our model performs four stages of semantic labeling, unlike Nicksirat's research that assumes the first two stage are given and uses the gold data, the actual difference between the two models is significantly higher than 6.23%.

كليدواژه هاي فارسي

پردازش زبان طبيعي , برچسب‌زني نقش معنايي , استخراج دانش , يادگيري چند وظيفه‌اي , برچسب‌زني نقش معنايي بين‌زباني

كليدواژه هاي لاتين

Natural Language Processing , Semantic Role Labeling , Knowledge Extraction , Multi-task learning , Cross-Lingual Semantic Role Labeling

Author

Mohammad Ebrahimi

SuperVisor

Dr. Behrouz Minaei-Bidgoli

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=28454&Field=0&DTC=6