شماره ركورد
34683
پديد آورنده
فاطمه صحبتي
عنوان
مدل فضاي حالت با رويكرد آموزش مبتني بر يادگيري و شبكه هزينه پويا
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
مهندسي برق گرايش مخابرات سيستم
سال تحصيل
1404
تاريخ دفاع
1404/9/23
استاد راهنما
دكتر فرزان حدادي
استاد مشاور
نداشتم
دانشكده
برق
چكيده
در سالهاي اخير، مدلهاي مبتني بر فضاي حالت بهعنوان جايگزيني كارآمد براي معماريهاي سنگينتري مانند ترنسفورمر در پردازش دنبالهها مطرح شدهاند. با اين حال، يكي از چالشهاي اساسي در اين مدلها، ثابت بودن تابع هزينه در طول فرآيند آموزش است. در حاليكه نيازهاي آموزشي مدل در مراحل مختلف يادگيري ميتواند متفاوت باشد و يك تابع هزينهي ايستا لزوماً در تمام مراحل بهينه نيست. بهمنظور رفع اين چالش، در اين پژوهش يك چارچوب تركيبي فرايادگيري مبتني بر مدل هاينا و يك شبكهي هزينهي پويا ارائه شده است كه فرآيند بهينهسازي را بهصورت تطبيقي هدايت ميكند. در مدل پيشنهادي، هاينا بهعنوان مدل دانشآموز عمل ميكند و يك مدل معلم حافظهدار با استفاده از تاريخچهي عملكرد دانشآموز، شبكهي هزينهي پويا را براي تنظيم وزن ميان هزينهي اصلي و يك عبارت جريمهي تنظيمگر بر روي لاجيتها راهنمايي ميكند. بدين ترتيب، بهجاي يك تابع هزينهي ثابت، يك تابع هزينهي پويا و نمونهمحور شكل ميگيرد كه در طول آموزش متناسب با وضعيت مدل تنظيم ميشود. كارايي چارچوب پيشنهادي بر روي دو مجموعهدادهي استاندارد مدلسازي زبان، يعني Penn Treebank (PTB) و WikiText-103، ارزيابي شده و نتايج آن با دو مدل مبنا، شامل مدل پايهي هاينا با تابع هزينهي ثابت و مدل ترنسفورمر، مقايسه گرديده است. نتايج تجربي نشان ميدهد كه مدل پيشنهادي در هر دو مجموعهداده، به كاتورگي پايينتري نسبت به مدل پايهي هاينا و مدل ترنسفورمر دست مييابد. بهطور مشخص، در مجموعهدادهي Penn Treebank، مدل پيشنهادي موفق به كاهش كاتورگي از حدود150 در مدل ترنسفورمر و135 در مدل پايهي هاينا به مقدار تقريبي 125 شده است. همچنين در مجموعهدادهي WikiText-103، كاتورگي مدل پيشنهادي در مقايسه با مدل ترنسفورمر و مدل پايهي هاينا بهترتيب كاهش نسبي حدود 23 تا 25 درصدي و 8 تا10 درصدي را نشان ميدهد. علاوه بر بهبود كمي در معيار كاتورگي، مدل پيشنهادي روند همگرايي پايدارتر و رفتار بهتري از نظر تعميمپذيري بر روي دادههاي اعتبارسنجي از خود نشان ميدهد. بهطور كلي، يافتههاي اين پژوهش حاكي از آن است كه تركيب مدلهاي مبتني بر فضاي حالت با بهينهسازي تطبيقي تابع هزينه در قالب يك چارچوب فرايادگيري ميتواند بهبود قابلتوجهي در كيفيت و كارايي مدلهاي يادگيري عميق براي دادههاي دنبالهاي ايجاد كند. اين رويكرد، علاوه بر حوزهي پردازش زبان طبيعي، پتانسيل بهكارگيري در مسائلي مانند تحليل سريهاي زماني و پردازش سيگنالهاي بيولوژيكي را نيز دارا ميباشد.
تاريخ ورود اطلاعات
1405/01/23
عنوان به انگليسي
State-Space Model with a Learn-to-Teach Approach and Dynamic Loss Network
تاريخ بهره برداري
3/21/2026 12:00:00 AM
دانشجوي وارد كننده اطلاعات
فاطمه صحبتي
چكيده به لاتين
In recent years, state-space models have emerged as an efficient alternative to heavier architectures such as Transformers for sequence processing. However, one of the fundamental challenges in these models is the use of a fixed loss function throughout training, while the learning requirements of the model can vary across different stages of training and a static loss is not necessarily optimal at all times. To address this challenge, this thesis proposes a hybrid meta-learning framework based on the Hyena model and a dynamic loss network that adaptively guides the optimization process. In the proposed approach, Hyena acts as the student model, while a memory-augmented teacher model uses the student’s performance history to guide a dynamic loss network that adjusts the weighting between the primary loss and a regularization term applied to the logits. In this way, instead of a single fixed loss, a dynamic, sample-dependent loss function is formed that is adjusted during training according to the current state of the model. The effectiveness of the proposed framework is evaluated on two standard language modeling benchmarks, Penn Treebank (PTB) and WikiText-103, and its performance is compared against two baselines: a vanilla Hyena model trained with a fixed loss function, and a Transformer model. Experimental results show that the proposed model achieves lower perplexity than both the Hyena baseline and the Transformer on both datasets, while also exhibiting a more stable convergence behavior and better generalization on the validation sets. Overall, the findings of this work indicate that combining state-space models with adaptive loss optimization in a meta-learning framework can lead to significant improvements in the quality and efficiency of deep learning models for sequential data. Beyond natural language processing, the proposed approach has the potential to be applied to other domains such as time-series analysis and the processing of biomedical signals.
كليدواژه هاي فارسي
مدلهاي فضاي حالت , آموزش مبتني بر يادگيري , شبكه هزينه پويا , هاينا , مدلهاي زباني
كليدواژه هاي لاتين
: State-Space Models , Learning-to-Teach , Dynamic Loss Network , Hyena , Language Models
Author
fatemeh sohbati
SuperVisor
Dr. farzan haddadi