شماره ركورد

15393

عنوان

بررسي روش‌هاي بهينه‌سازي ترجيحي براي هم‌ترازي مدل‌هاي زباني بزرگ

سال تحصيل

1403

استاد راهنما

دكتر بهروز مينايي بيدگلي

چکيده

مدل‌هاي زباني بزرگ، علي‌رغم توانايي‌هاي چشمگير در توليد و درك زبان، به طور ذاتي با ارزش‌ها و نيات انساني همراستا نيستند. اين چالش اساسي، منجر به توسعه روش‌هاي همراستاسازي شده است كه هدف آن‌ها تنظيم رفتار اين مدل‌ها براي توليد خروجي‌هاي مفيد، صادق و بي‌ضرر است. روش يادگيري تقويتي از بازخورد انساني به عنوان راه‌حل پيشگام در اين حوزه مطرح شد، اما پيچيدگي، ناپايداري و هزينه محاسباتي بالاي آن، موانع جدي براي استفاده گسترده ايجاد كرد. اين سمينار، مسير تكاملي روش‌هاي همراستاسازي را با تمركز بر گذار از روش يادگيري تقويتي از بازخورد انساني به خانواده الگوريتم‌هاي بهينه‌سازي مستقيم ترجيحات واكاوي مي‌كند. بهينه‌سازي مستقيم ترجيحات با يك بازنويسي رياضي هوشمندانه، فرآيند همراستاسازي را به يك مسئله يادگيري نظارت‌شده ساده تبديل كرده و نياز به حلقه يادگيري تقويتي را حذف نمود. در ادامه، اين سمينار نشان مي‌دهد كه چگونه نسل جديدي از الگوريتم‌ها، با تمركز بر سه محور اصلي، براي رفع محدوديت‌هاي باقي‌مانده ظهور كرده‌اند: - افزايش كارايي محاسباتي: با حذف نياز به مدل مرجع. - افزايش انعطاف‌پذيري در داده‌ها و اهداف: با استفاده از فرمت‌هاي داده جايگزين و كنترل سوگيري‌هاي رفتاري. - بهينه‌سازي براي اهداف پيچيده‌تر: با تزريق مستقيم معيارهاي كيفي مانند خلاقيت به تابع زيان. در نهايت، اين سمينار با ارائه يك مقايسه جامع، تصويري منسجم از سير تحول اين حوزه ارائه مي‌دهد؛ مسيري كه از پيچيدگي به سمت الگوريتم‌هاي ساده، كارآمد و ماژولار حركت كرده و چشم‌انداز آينده تحقيقات همراستاسازي را روشن مي‌سازد.

نام دانشجو

پوريا صانعي

Name: پوريا صانعي
Author: پوريا صانعي

تاريخ ارائه

11/5/2025 12:00:00 AM

متن كامل

88503

پديد آورنده

پوريا صانعي

تاريخ ورود اطلاعات

1404/08/30

عنوان به انگليسي

Review of Preference Optimization Methods for Aligning Large Language Models

كليدواژه هاي فارسي

مدل‌هاي زباني بزرگ , همراستاسازي مدل‌هاي زبان بزرگ , بهينه‌سازي ترجيحات , يادگيري تقويتي از بازخورد انساني , بهينه‌سازي مستقيم ترجيحات , مدل پاداش , الگوريتم‌هاي بدون مدل مرجع

كليدواژه هاي لاتين

Large Language Model Alignment , Preference Optimization , Reinforcement Learning from Human Feedback (RLHF) , Direct Preference Optimization (DPO) , Reward Model , Reference-Free Algorithms

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=15393&Field=0&DTC=14