شماره ركورد
15393
عنوان
بررسي روشهاي بهينهسازي ترجيحي براي همترازي مدلهاي زباني بزرگ
سال تحصيل
1403
استاد راهنما
دكتر بهروز مينايي بيدگلي
چکيده
مدلهاي زباني بزرگ، عليرغم تواناييهاي چشمگير در توليد و درك زبان، به طور ذاتي با ارزشها و نيات انساني همراستا نيستند. اين چالش اساسي، منجر به توسعه روشهاي همراستاسازي شده است كه هدف آنها تنظيم رفتار اين مدلها براي توليد خروجيهاي مفيد، صادق و بيضرر است. روش يادگيري تقويتي از بازخورد انساني به عنوان راهحل پيشگام در اين حوزه مطرح شد، اما پيچيدگي، ناپايداري و هزينه محاسباتي بالاي آن، موانع جدي براي استفاده گسترده ايجاد كرد.
اين سمينار، مسير تكاملي روشهاي همراستاسازي را با تمركز بر گذار از روش يادگيري تقويتي از بازخورد انساني به خانواده الگوريتمهاي بهينهسازي مستقيم ترجيحات واكاوي ميكند. بهينهسازي مستقيم ترجيحات با يك بازنويسي رياضي هوشمندانه، فرآيند همراستاسازي را به يك مسئله يادگيري نظارتشده ساده تبديل كرده و نياز به حلقه يادگيري تقويتي را حذف نمود. در ادامه، اين سمينار نشان ميدهد كه چگونه نسل جديدي از الگوريتمها، با تمركز بر سه محور اصلي، براي رفع محدوديتهاي باقيمانده ظهور كردهاند:
- افزايش كارايي محاسباتي: با حذف نياز به مدل مرجع.
- افزايش انعطافپذيري در دادهها و اهداف: با استفاده از فرمتهاي داده جايگزين و كنترل سوگيريهاي رفتاري.
- بهينهسازي براي اهداف پيچيدهتر: با تزريق مستقيم معيارهاي كيفي مانند خلاقيت به تابع زيان.
در نهايت، اين سمينار با ارائه يك مقايسه جامع، تصويري منسجم از سير تحول اين حوزه ارائه ميدهد؛ مسيري كه از پيچيدگي به سمت الگوريتمهاي ساده، كارآمد و ماژولار حركت كرده و چشمانداز آينده تحقيقات همراستاسازي را روشن ميسازد.
نام دانشجو
پوريا صانعي
تاريخ ارائه
11/5/2025 12:00:00 AM
متن كامل
88503
پديد آورنده
پوريا صانعي
تاريخ ورود اطلاعات
1404/08/30
عنوان به انگليسي
Review of Preference Optimization Methods for Aligning Large Language Models
كليدواژه هاي فارسي
مدلهاي زباني بزرگ , همراستاسازي مدلهاي زبان بزرگ , بهينهسازي ترجيحات , يادگيري تقويتي از بازخورد انساني , بهينهسازي مستقيم ترجيحات , مدل پاداش , الگوريتمهاي بدون مدل مرجع
كليدواژه هاي لاتين
Large Language Model Alignment , Preference Optimization , Reinforcement Learning from Human Feedback (RLHF) , Direct Preference Optimization (DPO) , Reward Model , Reference-Free Algorithms