فاطمه صحبتي

عنوان

مدل فضاي حالت با رويكرد آموزش مبتني بر يادگيري و شبكه هزينه پويا

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

مهندسي برق گرايش مخابرات سيستم

سال تحصيل

1404

تاريخ دفاع

1404/9/23

استاد راهنما

دكتر فرزان حدادي

استاد مشاور

نداشتم

دانشكده

برق

چكيده

در سال‌هاي اخير، مدل‌هاي مبتني بر فضاي حالت به‌عنوان جايگزيني كارآمد براي معماري‌هاي سنگين‌تري مانند ترنسفورمر در پردازش دنباله‌ها مطرح شده‌اند. با اين حال، يكي از چالش‌هاي اساسي در اين مدل‌ها، ثابت بودن تابع هزينه در طول فرآيند آموزش است. در حالي‌كه نيازهاي آموزشي مدل در مراحل مختلف يادگيري مي‌تواند متفاوت باشد و يك تابع هزينه‌ي ايستا لزوماً در تمام مراحل بهينه نيست. به‌منظور رفع اين چالش، در اين پژوهش يك چارچوب تركيبي فرايادگيري مبتني بر مدل هاينا و يك شبكه‌ي هزينه‌ي پويا ارائه شده است كه فرآيند بهينه‌سازي را به‌صورت تطبيقي هدايت مي‌كند. در مدل پيشنهادي، هاينا به‌عنوان مدل دانش‌آموز عمل مي‌كند و يك مدل معلم حافظه‌دار با استفاده از تاريخچه‌ي عملكرد دانش‌آموز، شبكه‌ي هزينه‌ي پويا را براي تنظيم وزن ميان هزينه‌ي اصلي و يك عبارت جريمه‌ي تنظيم‌گر بر روي لاجيت‌ها راهنمايي مي‌كند. بدين ترتيب، به‌جاي يك تابع هزينه‌ي ثابت، يك تابع هزينه‌ي پويا و نمونه‌محور شكل مي‌گيرد كه در طول آموزش متناسب با وضعيت مدل تنظيم مي‌شود. كارايي چارچوب پيشنهادي بر روي دو مجموعه‌داده‌ي استاندارد مدل‌سازي زبان، يعني Penn Treebank (PTB) و WikiText-103، ارزيابي شده و نتايج آن با دو مدل مبنا، شامل مدل پايه‌ي هاينا با تابع هزينه‌ي ثابت و مدل ترنسفورمر، مقايسه گرديده است. نتايج تجربي نشان مي‌دهد كه مدل پيشنهادي در هر دو مجموعه‌داده، به كاتورگي پايين‌تري نسبت به مدل پايه‌ي هاينا و مدل ترنسفورمر دست مي‌يابد. به‌طور مشخص، در مجموعه‌داده‌ي Penn Treebank، مدل پيشنهادي موفق به كاهش كاتورگي از حدود150 در مدل ترنسفورمر و135 در مدل پايه‌ي هاينا به مقدار تقريبي 125 شده است. همچنين در مجموعه‌داده‌ي WikiText-103، كاتورگي مدل پيشنهادي در مقايسه با مدل ترنسفورمر و مدل پايه‌ي هاينا به‌ترتيب كاهش نسبي حدود 23 تا 25 درصدي و 8 تا10 درصدي را نشان مي‌دهد. علاوه بر بهبود كمي در معيار كاتورگي، مدل پيشنهادي روند همگرايي پايدارتر و رفتار بهتري از نظر تعميم‌پذيري بر روي داده‌هاي اعتبارسنجي از خود نشان مي‌دهد. به‌طور كلي، يافته‌هاي اين پژوهش حاكي از آن است كه تركيب مدل‌هاي مبتني بر فضاي حالت با بهينه‌سازي تطبيقي تابع هزينه در قالب يك چارچوب فرايادگيري مي‌تواند بهبود قابل‌توجهي در كيفيت و كارايي مدل‌هاي يادگيري عميق براي داده‌هاي دنباله‌اي ايجاد كند. اين رويكرد، علاوه بر حوزه‌ي پردازش زبان طبيعي، پتانسيل به‌كارگيري در مسائلي مانند تحليل سري‌هاي زماني و پردازش سيگنال‌هاي بيولوژيكي را نيز دارا مي‌باشد.

تاريخ ورود اطلاعات

1405/01/23

عنوان به انگليسي

State-Space Model with a Learn-to-Teach Approach an‎d Dynamic Loss Network

تاريخ بهره برداري

3/21/2026 12:00:00 AM

دانشجوي وارد كننده اطلاعات

فاطمه صحبتي

Name: فاطمه صحبتي
Author: فاطمه صحبتي

چكيده به لاتين

In recent years, state-space models have emerged as an efficient alternative to heavier architectures such as Transformers for sequence processing. However, one of the fundamental challenges in these models is the use of a fixed loss function throughout training, while the learning requirements of the model can vary across different stages of training an‎d a static loss is not necessarily optimal at all times. To address this challenge, this thesis proposes a hybrid meta-learning framework based on the Hyena model an‎d a dynamic loss network that adaptively guides the optimization process. In the proposed approach, Hyena acts as the student model, while a memory-augmented teacher model uses the student’s performance history to guide a dynamic loss network that adjusts the weighting between the primary loss an‎d a regularization term applied to the logits. In this way, instead of a single fixed loss, a dynamic, sample-dependent loss function is formed that is adjusted during training according to the current state of the model. The effectiveness of the proposed framework is eva‎luated on two stan‎dard language modeling benchmarks, Penn Treebank (PTB) an‎d WikiText-103, an‎d its performance is compared against two baselines: a vanilla Hyena model trained with a fixed loss function, an‎d a Transformer model. Experimental results show that the proposed model achieves lower perplexity than both the Hyena baseline an‎d the Transformer on both datasets, while also exhibiting a more stable convergence behavior an‎d better generalization on the validation sets. Overall, the findings of this work indicate that combining state-space models with adaptive loss optimization in a meta-learning framework can lead to significant improvements in the quality an‎d efficiency of deep learning models for sequential data. Beyond natural language processing, the proposed approach has the potential to be applied to other domains such as time-series analysis an‎d the processing of biomedical signals.

كليدواژه هاي فارسي

مدل‌هاي فضاي حالت , آموزش مبتني بر يادگيري , شبكه هزينه پويا , هاينا , مدل‌هاي زباني

كليدواژه هاي لاتين

: State-Space Models , Learning-to-Teach , Dynamic Loss Network , Hyena , Language Models

Author

fatemeh sohbati

SuperVisor

Dr. farzan haddadi

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=34683&Field=0&DTC=6