-
شماره ركورد
25305
-
پديد آورنده
حسين محبي
-
عنوان
تفسيرپذيري و انتقالپذيري دانشهاي زباني در مدلهاي زباني از پيشآموزشديده
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
مهندسي كامپيوتر
-
سال تحصيل
1398-1400
-
تاريخ دفاع
1400/06/24
-
استاد راهنما
دكتر محمدطاهر پيلهور، دكتر بهروز مينايي بيدگلي
-
دانشكده
مهندسي كامپيوتر
-
چكيده
بهدنبال موفقيتهاي چشمگير مدلهاي زباني از پيشآموزشديده در حوزه پردازش زبان طبيعي و يادگيري انتقالي، اخيرا موج قابلتوجهي از تحقيقات به آشكارسازي دانشهاي زباني كسبشده توسط بازنماييهاي اين مدلها اختصاص يافته است. يكي از روشهاي محبوب و پركاربرد در اين تحقيقات استفاده از ردهبندهايي موسوم به كاوشگر هستند كه بر روي بازنماييهاي يك مدل آموزش داده شده و از دقت آنها بهعنوان توانايي مدل در كسب دانشها تعبير ميشود. اگرچه اين نتايج ديد خوبي از نوع دانشهاي زباني كدشده در لايههاي مختلف فراهم ميكنند، اما اين تحقيقات به نتيجهگيري تنها برحسب سنجههايي مانند دقت بسنده كرده و دلايل متفاوت بودن دقت كاوشها در لايههاي مختلف و نقشي كه توسط بازنمايي هر يك از توكنها ايفا ميشود را روشن نكردهاند. در اين تحقيق ابتدا با معرفي يك روش كاوش بديع مبتنيبر گراديان، تحقيقات در اين زمينه را به سطح توكنها توسعه داده و بهكمك آن بهدنبال اكتشاف زيرفضاهايي متمايز و معنادار در فضاي بازنماييهاي بافتاري مدل هستيم كه بتوانند نتايج بهدستآمده توسط كاوشها را توضيح دهند. نتايج اين كاوش بر روي مجموعه وظايف متنوع سطحي، نحوي و معنايي نشان ميدهد مدلهاي برت و روبرتا در بازنمايي بعضي از توكنها دانش نسبتا بيشتري كد ميكنند. سپس با الهام از اين نتيجه، يك روش بديع و پويا براي حذف توكنهاي بياهميت در هر لايه از مدل پيشنهاد ميدهيم كه موجب كاهش هزينه محاسباتي و مدت زمان استنتاج شود. همچنين نشان ميدهيم استفاده از معيار برجستگي با اختلاف قابل توجهي بهتر از اتكا به وزنهاي خودتوجه در سنجش اهميت توكنها در يك جمله است. در پايان، تحقيقات در حوزه كاوش بازنماييها را به ساير مدلها توسعه داده و با بهرهگيري از يك كاوش مبتني بر علم نظريه اطلاعات، سه مدل محبوب و پركاربرد مبتنيبر برت با اهداف آموزشي كاملا متفاوت را مورد تحقيق قرار داده و نشان ميدهيم توزيع دانشهاي كدشده در اين مدلها يكسان نبوده و رفتار متفاوتي را نسبتبه هم بهنمايش ميگذارند. بهطور خاص نشان ميدهيم مدل ايكسالنت دانشهاي زباني را در لايههاي ابتداييتر انباشته كرده در حالي كه الكترا بيشتر اين دانشها را در لايههاي آخر كد كرده است.
-
تاريخ ورود اطلاعات
1400/07/10
-
عنوان به انگليسي
Interpretability and Transferability of Linguistic Knowledge in Pre-trained Language Models
-
تاريخ بهره برداري
9/15/2022 12:00:00 AM
-
دانشجوي وارد كننده اطلاعات
حسين محبي
-
چكيده به لاتين
With the impressive success of pre-trained language models, such as BERT and their significant advances in transfer learning, a wave of interest has been recently directed toward understanding the knowledge encoded in their representations. This is usually achieved by training a diagnostic classifier (aka ``probe'') on the representations obtained from different layers of the model. The subsequent classification accuracy is then interpreted as the ability of the model in encoding the corresponding linguistic property. Despite providing insights, these studies have left out the potential role of token representations. In this report, we first provide a more in-depth analysis on the representation space of BERT in search for distinct and meaningful subspaces that can explain the reasons behind these probing results. Based on a set of probing tasks and with the help of attribution methods we show that BERT tends to encode meaningful knowledge in specific token representations. Then based on our findings, we propose a novel approach based on token importance for reducing the computational cost of BERT-based models with minimal loss in downstream performance. In addition, we show that saliency could be a more appropriate criterion for measuring token importance to compare with self-attention weight---which has been used in recent important studies of model efficiency. Finally, we aim to extend the probing studies on BERT to the other models in the family, showing that variations in the pre-training objectives or architectural choices can result in different behaviors in encoding linguistic information in the representations. Most notably, we observe that ELECTRA tends to encode linguistic knowledge in the deeper layers, whereas XLNet instead concentrates that in the earlier layers.
-
كليدواژه هاي فارسي
مدلهاي زباني از پيشآموزشديده , مبدل , تفسيرپذيري , كاوش
-
كليدواژه هاي لاتين
Pre-trained Language Models , Transformers , interpretability , Probing
-
لينک به اين مدرک :