شماره ركورد

16558

عنوان

بررسي تكنيك‌هاي تنظيم نرم‌اعلان‌ها براي مدل‌هاي زباني بزرگ

سال تحصيل

1403

استاد راهنما

دكتر بهروز مينايي

استاد مشاور

دكتر بهروز مينايي

چکيده

مدل‌هاي زباني بزرگ با ظهور معماري مبدل و پيش‌آموزش بر روي مجموعه داده‌هاي عظيم، پيشرفت‌هاي چشمگيري در پردازش زبان طبيعي حاصل كرده‌اند. تطبيق اين مدل‌ها با وظايف پايين‌دستي خاص از طريق تنظيم دقيق كامل، نيازمند به‌روزرساني تمامي پارامترهاي مدل است كه در مدل‌هاي با صدها ميليون يا ميلياردها پارامتر، هزينه‌هاي محاسباتي و حافظه قابل‌توجهي را به همراه دارد. اين رويكرد علاوه بر نياز به منابع محاسباتي گسترده و حافظه بالا، با چالش‌هايي همچون فراموشي فاجعه‌آميز، ناپايداري آموزش و نياز به ذخيره‌سازي نسخه‌هاي متعدد مدل براي وظايف مختلف مواجه است. تنظيم نرم‌اعلان به‌عنوان يك رويكرد كارآمد از نظر پارامتر، با افزودن بردارهاي پيوسته قابل‌آموزش به ورودي مدل و نگه‌داشتن مدل زباني به صورت منجمد، راه‌حلي براي كاهش اين هزينه‌ها ارائه مي‌دهد. هدف اين پژوهش، بررسي جامع تكنيك‌هاي تنظيم نرم‌اعلان و تحليل تكامل اين روش‌ها از نسخه‌هاي پايه تا رويكردهاي پيشرفته است. در اين راستا، روش‌هاي پايه، روش‌هاي مبتني بر بهبود معماري از جمله رويكردهاي مبتني بر كدگذار، تجزيه ماتريسي و تركيب متخصصان، و همچنين روش‌هاي يادگيري انتقالي بررسي شده‌اند. نتايج نشان مي‌دهد تنظيم نرم‌اعلان با به‌روزرساني كمتر از يك درصد پارامترهاي مدل، در مدل‌هاي بزرگ به عملكردي معادل تنظيم كامل دست مي‌يابد، اما در مدل‌هاي كوچك‌تر با چالش‌هايي همچون شكاف عملكردي، حساسيت به مقداردهي اوليه و همگرايي كند روبه‌رو است. مقايسه روش‌هاي مختلف بر اساس معماري، كارايي پارامتري و عملكرد، راهنمايي براي انتخاب رويكرد مناسب بسته به نوع وظيفه و محدوديت‌هاي محاسباتي ارائه مي‌دهد.

نام دانشجو

آيدا خالقي

Name: آيدا خالقي
Author: آيدا خالقي

تاريخ ارائه

11/5/2025 12:00:00 AM

متن كامل

88923

پديد آورنده

آيدا خالقي

تاريخ ورود اطلاعات

1404/09/27

عنوان به انگليسي

A Review of pro‎mp‎t Tuning Techniques for Large Language Models

كليدواژه هاي فارسي

تنظيم نرم‌اعلان , تنظيم كارآمد از نظر پارامتر , مدل‌هاي زباني بزرگ , يادگيري انتقالي , تركيب متخصصان

كليدواژه هاي لاتين

Soft pro‎mp‎t tuning , Parameter-efficient fine-tuning , Large language models , Transfer learning , Mixture of experts

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=16558&Field=0&DTC=14