شماره ركورد
25148
پديد آورنده
كيامهر رضايي
عنوان
واكاوي توانايي بازشناسي معنايي مدلهاي حساس به محتوا براي بازنمايش كلمات
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
مهندسي كامپيوتر
سال تحصيل
1397-1400
تاريخ دفاع
1400/04/02
استاد راهنما
محمد طاهر پيلهور - صالح اعتمادي
دانشكده
مهندسي كامپيوتر
چكيده
امروزه كاربرد شبكههاي عصبي عميق در حوزه پردازش زبانهاي طبيعي، بهطور چشمگيري افزايش يافته است و در بيشتر زمينهها، همچون ترجمهي ماشيني، پاسخ به سوال، ردهبندي متون و غيره، روشهاي مبتني بر شبكههاي عصبي عملكرد با اختلاف بهتري نسبت به روشهاي ديگر دارند. همانطور كه ميدانيم، ورودي شبكههاي عصبي از جنس اعداد و ارقام ميباشد؛ بنابراين يكي از چالشها هنگام بهكارگيري شبكههاي عصبي در حوزه زبانهاي طبيعي، تبديل كردن سندهايي از جنس كلمات به وروديهايي عددي است. يكي از مشكلات اصلي در روشهاي اوليه، مربوط به كلماتي با چندين معني مختلف ميباشد كه با وجود داشتن شكل نوشتاري يكسان، ميبايست به بردارهاي متفاوتي نگاشته شوند. امروزه مدلهاي زباني از پيش آموزش داده شده، به طور گسترده براي حل مشكل ذكر شده مورد استفاده قرار ميگيرند؛ چرا كه اين مدلها با استفاده از محتوايي كه كلمهي مورد نظر در آن ظاهر شده است، بازنماييهاي متفاوتي براي معاني مختلف يك واژه ايجاد ميكنند. مدل BERT و مشتقات آن به لطف توانايي بينظيرشان در به كارگيري محتوا براي بازنمايي كلمات، امروزه در تمامي آزمونها از جمله آزمونهاي مربوط به رفع ابهام از كلمات، درخشش چشمگيري داشتهاند. هرچند، در رابطه با ميزان توانايي آنها در كيفيت كدگذاري و كدگشايي معاني مختلف كلمات، همچنان ابهام وجود دارد. در اين پاياننامه، ما بهطور جامع، به بررسي كمي و كيفي مدل BERT در رابطه با ابهام واژگاني ميپردازيم. يكي از نتايج اصلي كار، اين است كه BERT ميتواند با ديدن تنها 3 نمونه از هريك از معاني درشتدانهي واژگان، به خوبي آنها را از يكديگر تميز دهد. همچنين، نشان ميدهيم كه اين مدلهاي زباني در شرايط بهينه، بسيار به عملكرد انسان در زمينهي رفع ابهام از واژگان نزديك شدهاند و در رفع ابهام درشتدانهي واژگان ميانگين عملكرد micro-f1 بالاي 95 درصد دارد. همچنين ما در اين كار به بررسي تفاوت عملكرد دو رويكرد مختلف ابهام زدايي از واژگان ميپردازيم. در رويكرد اول، مدل از پيش آموزش داده شده، بر روي دادگان جديد تنظيم دقيق ميگردد و در رويكرد دوم، از دانش خام مدلهاي زباني بدون تنظيم دقيق بيشتر بر روي دادهي جديد بهره برداري ميشود. نشان ميدهيم كه رويكرد دوم كه رويكرد عملي و همچنين طبيعيتر حل اين مساله ميباشد، نسبت به خطا مقاومت بيشتري داشته و به نمونههاي بسيار كمي براي بهره برداري نياز دارد. در نهايت با معرفي مشكلاتي كه تعريف فعلي صورت مسالهي رفع ابهام در راستاي ارزيابي سيستمها ايجاد ميكند و با معرفي صورت مسالهي جايگزين، اين تحقيق به پايان ميرسد.
تاريخ ورود اطلاعات
1400/06/09
عنوان به انگليسي
Language Models and Word Sense Disambiguation: An Overview and Analysis
تاريخ بهره برداري
1/1/1900 12:00:00 AM
دانشجوي وارد كننده اطلاعات
كيامهر رضائي
چكيده به لاتين
Transformer-based language models have taken many fields in NLP by storm. BERT and its derivatives dominate most of the existing evaluation benchmarks, including those for Word Sense Disambiguation (WSD), thanks to their ability in capturing context-sensitive semantic nuances. However, there is still little knowledge about their capabilities and potential limitations for encoding and recovering word senses. In this article, we provide an in-depth quantitative and qualitative analysis of the celebrated BERT model with respect to lexical ambiguity. One of the main conclusions of our analysis is that BERT captures high-level sense distinctions accurately, even when a limited number of examples is available for each word sense. Our analysis also reveals that in some cases language models come close to solving coarse-grained noun disambiguation under ideal conditions in terms of availability of training data and computing resources. However, this scenario rarely occurs in real-world settings and, hence, many practical challenges remain even in the coarse-grained setting. We also perform an in-depth comparison of the two main language model based WSD strategies, i.e., fine-tuning and feature extraction, finding that the latter approach is more robust with respect to sense bias and it can better exploit limited available training data. In fact, a simple feature extraction strategy based on the averaging of contextualized embeddings proves robust even using only three training sentences per word sense, with minimal improvements beyond this small number of examples. Finally, We present WiC-TSV, a new multi-domain evaluation benchmark for Word Sense Disambiguation. More specifically, we introduce a framework for Target Sense Verification of Words in Context which grounds its uniqueness in the formulation as binary classification task thus being independent of external sense inventories, and the coverage of various domains. This makes the dataset highly flexible for the evaluation of a diverse set of models and systems in and across domains. WiC-TSV provides three different evaluation settings, depending on the input signals provided to the model. We set baseline performance on the dataset using state-of-the-art language models. Experimental results show that even though these models can perform decently on the task, there remains a gap between machine and human performance, especially in out-of domain settings.
كليدواژه هاي فارسي
پردازش زبان طبيعي , جانمايي واژه , جانمايي حساس به محتواي واژه
كليدواژه هاي لاتين
Natural language processing , Word embedding , contextualized word embedding