كيامهر رضايي

عنوان

واكاوي توانايي بازشناسي معنايي مدل‌هاي حساس به محتوا براي بازنمايش كلمات

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

مهندسي كامپيوتر

سال تحصيل

1397-1400

تاريخ دفاع

1400/04/02

استاد راهنما

محمد طاهر پيله‌ور - صالح اعتمادي

دانشكده

مهندسي كامپيوتر

چكيده

امروزه كاربرد شبكه‌هاي عصبي عميق در حوزه پردازش زبان‌هاي طبيعي، به‌طور چشمگيري افزايش يافته است و در بيشتر زمينه‌ها، همچون ترجمه‌ي ماشيني، پاسخ به سوال، رده‌بندي متون و غيره، روش‌هاي مبتني بر شبكه‌هاي عصبي عملكرد با اختلاف بهتري نسبت به روش‌هاي ديگر دارند. همانطور كه مي‌دانيم، ورودي شبكه‌هاي عصبي از جنس اعداد و ارقام مي‌باشد؛ بنابراين يكي از چالش‌ها هنگام به‌كارگيري شبكه‌هاي عصبي در حوزه زبان‌هاي طبيعي، تبديل كردن سندهايي از جنس كلمات به ورودي‌هايي عددي است. يكي از مشكلات اصلي در روش‌هاي اوليه، مربوط به كلماتي با چندين معني مختلف مي‌باشد كه با وجود داشتن شكل نوشتاري يكسان، مي‌بايست به بردارهاي متفاوتي نگاشته شوند. امروزه مدل‌هاي زباني از پيش آموزش داده شده، به طور گسترده براي حل مشكل ذكر شده مورد استفاده قرار مي‌گيرند؛ چرا كه اين مدل‌ها با استفاده از محتوايي كه كلمه‌ي مورد نظر در آن ظاهر شده است، بازنمايي‌هاي متفاوتي براي معاني مختلف يك واژه ايجاد ميكنند. مدل BERT و مشتقات آن به لطف توانايي بي‌نظيرشان در به كارگيري محتوا براي بازنمايي كلمات، امروزه در تمامي آزمون‌ها از جمله آزمون‌هاي مربوط به رفع ابهام از كلمات، درخشش چشمگيري داشته‌اند. هرچند، در رابطه با ميزان توانايي آن‌ها در كيفيت كدگذاري و كدگشايي معاني مختلف كلمات، همچنان ابهام وجود دارد. در اين پايان‌نامه، ما به‌طور جامع، به بررسي كمي و كيفي مدل BERT در رابطه با ابهام واژگاني مي‌پردازيم. يكي از نتايج اصلي كار، اين است كه BERT مي‌تواند با ديدن تنها 3 نمونه از هريك از معاني درشت‌دانه‌ي واژگان، به خوبي آن‌ها را از يكديگر تميز دهد. همچنين، نشان مي‌دهيم كه اين مدل‌هاي زباني در شرايط بهينه، بسيار به عملكرد انسان در زمينه‌ي رفع ابهام از واژگان نزديك شده‌اند و در رفع ابهام درشتدانه‌ي واژگان ميانگين عملكرد micro-f1 بالاي 95 درصد دارد. همچنين ما در اين كار به بررسي تفاوت عملكرد دو رويكرد مختلف ابهام زدايي از واژگان مي‌پردازيم. در رويكرد اول، مدل از پيش آموزش داده شده، بر روي دادگان جديد تنظيم دقيق مي‌گردد و در رويكرد دوم، از دانش خام مدل‌هاي زباني بدون تنظيم دقيق بيشتر بر روي داده‌ي جديد بهره برداري مي‌شود. نشان مي‌دهيم كه رويكرد دوم كه رويكرد عملي و همچنين طبيعي‌تر حل اين مساله مي‌باشد، نسبت به خطا مقاومت بيشتري داشته و به نمونه‌هاي بسيار كمي براي بهره برداري نياز دارد. در نهايت با معرفي مشكلاتي كه تعريف فعلي صورت مساله‌ي رفع ابهام در راستاي ارزيابي سيستم‌ها ايجاد مي‌كند و با معرفي صورت مساله‌ي جايگزين، اين تحقيق به پايان مي‌رسد.

تاريخ ورود اطلاعات

1400/06/09

عنوان به انگليسي

Language Models and Word Sense Disambiguation: An Overview and Analysis

تاريخ بهره برداري

1/1/1900 12:00:00 AM

دانشجوي وارد كننده اطلاعات

كيامهر رضائي

Name: كيامهر رضائي
Author: كيامهر رضايي

چكيده به لاتين

Transformer-based language models have taken many fields in NLP by storm. BERT and its derivatives dominate most of the existing evaluation benchmarks, including those for Word Sense Disambiguation (WSD), thanks to their ability in capturing context-sensitive semantic nuances. However, there is still little knowledge about their capabilities and potential limitations for encoding and recovering word senses. In this article, we provide an in-depth quantitative and qualitative analysis of the celebrated BERT model with respect to lexical ambiguity. One of the main conclusions of our analysis is that BERT captures high-level sense distinctions accurately, even when a limited number of examples is available for each word sense. Our analysis also reveals that in some cases language models come close to solving coarse-grained noun disambiguation under ideal conditions in terms of availability of training data and computing resources. However, this scenario rarely occurs in real-world settings and, hence, many practical challenges remain even in the coarse-grained setting. We also perform an in-depth comparison of the two main language model based WSD strategies, i.e., fine-tuning and feature extraction, finding that the latter approach is more robust with respect to sense bias and it can better exploit limited available training data. In fact, a simple feature extraction strategy based on the averaging of contextualized embeddings proves robust even using only three training sentences per word sense, with minimal improvements beyond this small number of examples. Finally, We present WiC-TSV, a new multi-domain evaluation benchmark for Word Sense Disambiguation. More specifically, we introduce a framework for Target Sense Verification of Words in Context which grounds its uniqueness in the formulation as binary classification task thus being independent of external sense inventories, and the coverage of various domains. This makes the dataset highly flexible for the evaluation of a diverse set of models and systems in and across domains. WiC-TSV provides three different evaluation settings, depending on the input signals provided to the model. We set baseline performance on the dataset using state-of-the-art language models. Experimental results show that even though these models can perform decently on the task, there remains a gap between machine and human performance, especially in out-of domain settings.

كليدواژه هاي فارسي

پردازش زبان طبيعي , جانمايي واژه , جانمايي حساس به محتواي واژه

كليدواژه هاي لاتين

Natural language processing , Word embedding , contextualized word embedding

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=25148&Field=0&DTC=6