شماره ركورد
28454
پديد آورنده
محمد ابراهيمي
عنوان
روشي جديد براي برچسبزني نقشهاي معنايي مبتني بر يادگيري بينزباني
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
مهندسي كامپيوتر - هوش مصنوعي و رباتيكز
سال تحصيل
1399
تاريخ دفاع
1401/12/21
استاد راهنما
دكتر بهروز مينايي بيدگلي
دانشكده
مهندسي كامپيوتر
چكيده
برچسبزني نقش معنايي يكي از مسئلههاي اساسي در پردازش زبان طبيعي و گامي مهم در جهت درك زبان طبيعي است كه وظيفه پاسخدهي خودكار به پرسشهايي نظير «چه كسي، چه كرد، با چه كسي، در چه زمان و مكاني، چرا و چگونه» را به عهده دارد. در سالهاي اخير با توجه به اينكه براي زبانهاي محدودي داده حاشيهنويسي شده موجود است و در بسياري از زبانها با كمبود داده حاشيهنويسي شده مواجهيم تمركز پژوهشگران بر روي طراحي روشهاي بينزباني بوده است. هدف برچسبزني نقش معنايي بينزباني اين است كه از منابع غني زبانهايي مانند انگليسي كه تعداد زيادي نمونه باكيفيت دارند استفاده كند تا نتايج را در زبانهايي با منابع محدود بهبود دهد. رويكردهاي متنوعي براي برچسبزني نقش معنايي بينزباني ارائه شدهاند كه عبارتاند از: تصويركردن حاشيهنويسي، رويكردهاي مبتني بر ترجمه و انتقال مدل. در اين پژوهش يك الگوريتم يادگيري عميق مبتني بر انتقال مدل ارائه شده است كه در آن مدل را طوري طراحي شده است كه توانايي اين را داشته باشد كه به طور همزمان روي چندين زبان آموزش ببيند و براي بهينهسازي شبكه از دادههاي زبانهاي مختلف استفاده كند. در اين پژوهش از بخش انگليسي مجموعه داده چندزباني CoNLL2009 و پيكره نقشهاي معنايي زبان فارسي استفاده شده است. در مدل پيشنهادي ما به جاي استفاده از تمام مجموعه داده آموزشي و به جهت انجام برچسبزني نقش معنايي بينزباني در هر دو آزمايش فقط از ده درصد از مجموعه داده آموزشي استفاده كرديم. به تبعيت از تحقيقات پيشينيان، در زبان انگليسي از تقسيمبندي توافقي مجموعه داده آموزش، اعتبارسنجي و آزمون را پيروي كرده و در زبان فارسي از تنظيمات ده درصد داده آزمون، ده درصد داده اعتبارسنجي و 80 درصد داده آموزشي استفاده كرديم كه معيار F1 در حالت تكزباني برابر 71.76 و در حالت بينزباني با ده درصد داده انگليسي برابر 74.11 به دست آمد. همچنين اگر از تمام داده انگليسي موجود استفاده كنيم معيار F1 به 75.94 ميرسد؛ بنابراين اين مدل توانست با بهرهگيري از مجموعه داده انگليسي نتايج فارسي را نسبت به حالت تكزباني 4.18 درصد بهبود دهد. با انجام آزمايشهاي مشابه با استفاده از مدل پيشنهادي نيكسيرت و همكاران كه بهترين مدل برچسبزني نقش معنايي در زبان فارسي است معيار F1 برابر 69.71 به دست آورديم؛ بنابراين مدل پيشنهادي ما، در حالت تكزباني 2.05 درصد و در حالت بينزباني 6.23 درصد نسبت به اين مدل بهبود ايجاد كرده¬است. با اين وجودبه¬علاوه، ازآنجاكه مدل ما چهار مرحله برچسبزني نقش معنايي را بر خلاف پژوهش نيكسيرت و همكاران كه دو مرحله اول را انجام شده فرض ميكند، اختلاف واقعي دو مدل از 6.23 بهمراتب بالاتر است.
تاريخ ورود اطلاعات
1402/04/06
عنوان به انگليسي
A New Method for Cross-Lingual-based Semantic Role Labeling
تاريخ بهره برداري
3/11/2024 12:00:00 AM
دانشجوي وارد كننده اطلاعات
محمد ابراهيمي
چكيده به لاتين
Semantic Role Labeling is one of the fundamental issues in natural language processing and a key step towards understanding natural language, and is responsible for automatically answering questions such as "who, did what, to whom, when, where, why, and how". In recent years researchers have focused on designing Cross-Lingual methods for Semantic Role Labeling. In Cross-Lingual Semantic Role Labeling we want to use the resources of a language like English that has many high-quality samples to improve the results in low-resource language. Various approaches have been proposed for cross-lingual semantic role labeling, including annotation projection, translation-based approaches, and model transfer. In this research, a deep learning algorithm based on model transfer is proposed, in which the structure of the model allows it to be trained on multiple languages simultaneously and uses data from different languages to optimize the network. We use the English part of the CoNLL2009 multilingual dataset and the corpus of Persian Proposition Bank. In the proposed model, we used only 10% of the training dataset instead of using the entire dataset. Following previous research, we followed the usual division of the training, validation, and testing datasets in English, and used 10% test data, 10% validation data, and 80% training data settings in Persian, resulting in an F1 score of 71.76 in monolingual mode and 74.11 in cross-lingual mode with 10% English data. Additionally, if we use all available English data, the F1 score reaches 75.94. Therefore, this model improved Persian results by 4.18% compared to the monolingual mode, by utilizing English data. By conducting similar experiments using Nicksirat's model, which is the best semantic labeling model in Persian, we achieved an F1 score of 69.71. Therefore, our proposed model improved by 2.05% in monolingual mode and 6.23% in cross-lingual mode compared to this model. However, since our model performs four stages of semantic labeling, unlike Nicksirat's research that assumes the first two stage are given and uses the gold data, the actual difference between the two models is significantly higher than 6.23%.
كليدواژه هاي فارسي
پردازش زبان طبيعي , برچسبزني نقش معنايي , استخراج دانش , يادگيري چند وظيفهاي , برچسبزني نقش معنايي بينزباني
كليدواژه هاي لاتين
Natural Language Processing , Semantic Role Labeling , Knowledge Extraction , Multi-task learning , Cross-Lingual Semantic Role Labeling
Author
Mohammad Ebrahimi
SuperVisor
Dr. Behrouz Minaei-Bidgoli