• شماره ركورد
    25305
  • پديد آورنده

    حسين محبي

  • عنوان
    تفسيرپذيري و انتقال‌پذيري دانش‌هاي زباني در مدل‌هاي زباني از پيش‌آموزش‌ديده
  • مقطع تحصيلي
    كارشناسي ارشد
  • رشته تحصيلي
    مهندسي كامپيوتر
  • سال تحصيل
    1398-1400
  • تاريخ دفاع
    1400/06/24
  • استاد راهنما
    دكتر محمدطاهر پيله‌ور، دكتر بهروز مينايي بيدگلي
  • دانشكده
    مهندسي كامپيوتر
  • چكيده
    به‌دنبال موفقيت‌هاي چشم‌گير مدل‌هاي زباني از پيش‌آموزش‌ديده در حوزه پردازش زبان طبيعي و يادگيري انتقالي، اخيرا موج قابل‌توجهي از تحقيقات به آشكارسازي دانش‌هاي زباني كسب‌شده توسط بازنمايي‌هاي اين مدل‌ها اختصاص يافته است. يكي از روش‌هاي محبوب و پركاربرد در اين تحقيقات استفاده از رده‌بند‌هايي موسوم به كاوش‌گر هستند كه بر روي بازنمايي‌هاي يك مدل آموزش داده شده و از دقت آن‌ها به‌عنوان توانايي مدل در كسب دانش‌ها تعبير مي‌شود. اگرچه اين نتايج ديد خوبي از نوع دانش‌هاي زباني كدشده در لايه‌هاي مختلف فراهم مي‌كنند، اما اين تحقيقات به نتيجه‌گيري تنها برحسب سنجه‌هايي مانند دقت بسنده كرده و دلايل متفاوت بودن دقت كاوش‌ها در لايه‌هاي مختلف و نقشي كه توسط بازنمايي هر يك از توكن‌ها ايفا مي‌شود را روشن نكرده‌اند. در اين تحقيق ابتدا با معرفي يك روش كاوش بديع مبتني‌بر گراديان، تحقيقات در اين زمينه را به سطح توكن‌ها توسعه داده و به‌كمك آن به‌دنبال اكتشاف زيرفضاهايي متمايز و معنادار در فضاي بازنمايي‌هاي بافتاري مدل هستيم كه بتوانند نتايج به‌دست‌آمده توسط كاوش‌ها را توضيح دهند. نتايج اين كاوش بر روي مجموعه وظايف متنوع سطحي، نحوي و معنايي نشان مي‌دهد مدل‌هاي برت و روبرتا در بازنمايي بعضي از توكن‌ها دانش نسبتا بيشتري كد مي‌كنند. سپس با الهام از اين نتيجه، يك روش بديع و پويا براي حذف توكن‌هاي بي‌اهميت در هر لايه از مدل پيشنهاد مي‌دهيم كه موجب كاهش هزينه محاسباتي و مدت زمان استنتاج شود. همچنين نشان مي‌دهيم استفاده از معيار برجستگي با اختلاف قابل توجهي بهتر از اتكا به وزن‌هاي خودتوجه در سنجش اهميت توكن‌ها در يك جمله است. در پايان، تحقيقات در حوزه كاوش بازنمايي‌ها را به ساير مدل‌ها توسعه داده و با بهره‌گيري از يك كاوش مبتني بر علم نظريه اطلاعات، سه مدل محبوب و پركاربرد مبتني‌بر برت با اهداف آموزشي كاملا متفاوت را مورد تحقيق قرار داده و نشان مي‌دهيم توزيع دانش‌هاي كدشده در اين مدل‌ها يكسان نبوده و رفتار متفاوتي را نسبت‌به هم به‌نمايش مي‌گذارند. به‌طور خاص نشان مي‌دهيم مدل ايكس‌ال‌نت دانش‌هاي زباني را در لايه‌هاي ابتدايي‌تر انباشته كرده در حالي كه الكترا بيشتر اين دانش‌ها را در لايه‌هاي آخر كد كرده است.
  • تاريخ ورود اطلاعات
    1400/07/10
  • عنوان به انگليسي
    ‫‪Interpretability‬‬ ‫‪and‬‬ ‫‪Transferability‬‬ ‫‪of‬‬ ‫‪Linguistic‬‬ ‫‪Knowledge‬‬ ‫‪in‬‬ ‫‪Pre-trained‬‬ ‫‪Language‬‬ ‫‪Models‬‬
  • تاريخ بهره برداري
    9/15/2022 12:00:00 AM
  • دانشجوي وارد كننده اطلاعات

    حسين محبي

  • چكيده به لاتين
    With the impressive success of pre-trained language models, such as BERT and their significant advances in transfer learning, a wave of interest has been recently directed toward understanding the knowledge encoded in their representations. This is usually achieved by training a diagnostic classifier (aka ``probe'') on the representations obtained from different layers of the model. The subsequent classification accuracy is then interpreted as the ability of the model in encoding the corresponding linguistic property. Despite providing insights, these studies have left out the potential role of token representations. In this report, we first provide a more in-depth analysis on the representation space of BERT in search for distinct and meaningful subspaces that can explain the reasons behind these probing results. Based on a set of probing tasks and with the help of attribution methods we show that BERT tends to encode meaningful knowledge in specific token representations. Then based on our findings, we propose a novel approach based on token importance for reducing the computational cost of BERT-based models with minimal loss in downstream performance. In addition, we show that saliency could be a more appropriate criterion for measuring token importance to compare with self-attention weight---which has been used in recent important studies of model efficiency. Finally, we aim to extend the probing studies on BERT to the other models in the family, showing that variations in the pre-training objectives or architectural choices can result in different behaviors in encoding linguistic information in the representations. Most notably, we observe that ELECTRA tends to encode linguistic knowledge in the deeper layers, whereas XLNet instead concentrates that in the earlier layers.
  • كليدواژه هاي فارسي
    مدل‌هاي زباني از پيش‌آموزش‌ديده , مبدل , تفسيرپذيري , كاوش
  • كليدواژه هاي لاتين
    Pre-trained Language Models , Transformers , interpretability , Probing