-
شماره ركورد
26850
-
پديد آورنده
سيد محمد علي مدرسي
-
عنوان
واكاوي و بهبود بازنماييهاي مدلهاي زباني مبتني بر مبدل
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
مهندسي كامپيوتر- هوش مصنوعي و رباتيكز
-
سال تحصيل
1398-1401
-
تاريخ دفاع
1401/05/26
-
استاد راهنما
محمد طاهر پيلهور
-
استاد مشاور
سيد صالح اعتمادي
-
دانشكده
دانشكده مهندسي كامپيوتر
-
چكيده
امروزه يكي از مرسومترين معماريهاي مورد استفاده در حوزه پردازش زبان طبيعي معماري مبدل و مشتقات آن است. بدين سبب انگيزهاي در تحقيقات ايجاد شدهاست تا مدلهاي مبتني بر اين معماري را بررسي و حتي در صورت امكان آن را بهبود دهند. واكاويهايي كه از تحقيق و بررسي بازنماييهاي ايجاد شده درون مدلها مي تواند باشد تا تفسير و فهم نحوه عملكرد و تصميمگيري مدلها. با اينكه يكي از سادهترين راهكارها در بحث تفسير مدل، استفاده از مقادير توجهات درون اين معماري باشد. اما واكاويهاي اخير در تحقيقات نشان ميدهد استفاده از صرف مقدار توجه صحيح نيست و بايستي در تحليلها به نرم بردار ضرب شده در مقدار توجه را نيز لحاظ كرد. به همين سبب در ادامه همين موضوع پژوهشي، روشي براي تفسير در سطر كدگذار معرفي نمودهايم. در اين روش اكثر اجزاي درون كدگذار در واكاوي لحاظ گرديدهاند و اثر حضور آنها را در اين تحليل برداري نيز بررسي كردهايم. در اين راهكار مثالهايي را نشاندادهايم كه در آنها موثرتر واقع شدن برخي از توكنها در عملكرد مدل به وضوح ديده ميشود. با الهام از اين نتيجه، يك راهكار براي كاهش تعداد بازنماييهاي در هر لايه با حذف كمتاثيرترين توكنها ارائه شده است. در اين راهكار با اضافه كردن شبكههايي ساده و كارامد تخمين اهميتهاي بازنماييها صورت گرفته و سپس توسط آستانههايي آموزشديدهشده، توكنهاي با اهميت كمتر حذف ميگردند. به وسيله اين روش تسريع در عملكرد و اجراي مدل صورت ميگيرد بطوري كه در برخي از آزمايشها سرعت مدل به 22 برابر حالت عادي خود دست پيدا ميكند بدون آنكه از دقت خود بطور چشمگيري بكاهد. همچنين به سبب تخمين اهميت صورت گرفته در اين روش، مدل تفسيرپذير ميگردد و خروجي آن به طرز قابل توجهي، نسبت به مقادير توجهات، همخواني بهتري با منطق انساني نشان ميدهد.
-
تاريخ ورود اطلاعات
1401/05/30
-
عنوان به انگليسي
Analyzing and Improving Representations of Transformer-based Language Models
-
تاريخ بهره برداري
8/17/2023 12:00:00 AM
-
دانشجوي وارد كننده اطلاعات
سيدمحمدعلي مدرسي
-
چكيده به لاتين
One of the most widely used architectures in current Natural Language Processing (NLP) is Transformer and its variants. As a result, analyzing and improving Transformer-based models has become a recent research trend. Analysis that may focus on examining the models' representations or interpreting their internal logic and decision-making processes. While raw attention values were initially thought to be the straightforward option, recent research has shown that the norms of the weighted vectors should also be considered. As a result, we have developed a novel explanation technique based on encoder outputs. In our work, we incorporated the majority of the encoder's internal components and analyzed each of their impacts on the final output. Observing multiple examples' explanations, a subset of tokens in a sentence can be clearly seen to have a higher influence. Inspired by this result, we also introduced a new adaptive representations length reduction method which drops less- contributing tokens in each layer. Token contributions are predicted in each layer by adding a simple network, and then less important representations are dropped using a trained- threshold. Using this method, it is possible to achieve up to a 22x improvement in inference time without sacrificing performance significantly. In addition, due to the newly added contribution prediction networks, this method demonstrates self-interpretability with plausible explanation results.
-
كليدواژه هاي فارسي
مبدل , مدلهاي از پيش آموزش ديده , واكاوي , تفسيرپذيري
-
كليدواژه هاي لاتين
transformer , Pre-trained Language Models , analysis , Explainability
-
Author
Seyed MohammadAli Modarressi
-
SuperVisor
Mohammad Taher Pilehvar
-
لينک به اين مدرک :