شماره ركورد
10192
پديد آورنده
مهدي حمزهئي
عنوان
كاهش خطاي پاسخ نادرست در مدلهاي زباني بزرگ با استفاده از روش ActLCD و يادگيري تقويتي
مقطع تحصيلي
كارشناسي
رشته تحصيلي
برق - مخابرات
سال فارغ التحصيلي
1404
استاد راهنما
دكتر فرزان حدادي
استاد مشاور
/
دانشجوي وارد كننده اطلاعات
مهدي حمزه يي
تاريخ ورود اطلاعات
1404/09/24
دانشكده
برق
عنوان به انگليسي
Reducing Incorrect Response Generation in Large Language Models Using Active Layer-Contrastive Decoding and Reinforcement Learning
چكيده
محتواي نادرست يا اصطالحاً توهمزايي هستند؛ مسئلهاي كه بهويژه در متون طوالني يا وظايف نيازمند استدالل
چندمرحلهاي تشديد ميشود. بخش مهمي از خطاها ناشي از تكيه بيش از حد مدل بر الگوهاي سطحي زباني
و عدم بهرهبرداري بهينه از دانش واقعي نهفته در اليههاي عميق است. رويكردهاي پيشين مبتني بر مقايسه
اليهها، هرچند توانستهاند با تقويت سيگنالهاي اليههاي عميق، دقت محتواي توليدي را بهبود بخشند، اما به
صورت ايستا و در تمام مراحل توليد اعمال ميشوند؛ اين امر ميتواند منجر به استفاده غيرضروري از محاسبات
سنگين يا حتي توليد خطاهاي جديد در مراحل ساده شود.
در اين پژوهش، رويكرد رمزگشايي اليهمقايسهاي فعال – Decoding Contrastive‑Layer Active(
ActLCD]1 )[معرفي ميشود كه با بازتعريف فرآيند رمزگشايي بهعنوان يك مسئله تصميمگيري متوالي،
قابليت كنترل پويا بر فعالسازي يا غيرفعالسازي عمليات مقايسه اليهها را در جريان توليد متن فراهم ميكند.
در اين چارچوب، هر مرحله از توليد بهعنوان يك حالت در يك فرايند تصميمگيري ماركوف در نظر گرفته
شده و بر اساس وضعيت فعلي كه شامل نهاننماييها و خروجي الجيتها از اليههاي منتخب است، يك
سياست يادگيري تقويتي تصميم ميگيرد آيا استفاده از مقايسه اليهاي در آن گام ضروري است يا خير. تابع
پاداش بهگونهاي طراحي شده است كه هم صحت واقعي متن را حداكثر كند و هم فعالسازيهاي غيرالزم يا
از دسترفته را جريمه نمايد؛ بدينترتيب مدل به تعادلي بين دقت و كارايي محاسباتي ميرسد.
براي آموزش سياست تصميمگيري، از يادگيري تقويتي آفالين همراه با الگوريتم Constrained‑Batch
[3]DQN بهره گرفته شده است كه از دادههاي برچسبخورده شامل تواليهاي خروجي و نقاط بهينه
فعالسازي استخراج شدهاند. مرحله آغازين يادگيري با تقليد رفتاري )[4] Cloning Behavior )انجام
شده و پس از آن پااليش سياست با بهروزرسانيهاي [5] Learning‑Q صورت گرفته است تا مدل ضمن
حفظ نزديكي به توزيع دادههاي واقعي، استراتژيهاي بهينهتري براي كاهش خطاي توهمزايي يافته و انتخاب
كند.
نتايج آزمايشها روي سه شاخص نشان داده است كه ActLCD نسبت به روشهاي پيشرفته موجود، بهبود
قابلتوجهي در شاخصهاي صحت واقعي، توانايي استدالل و كاهش خطاهاي انباشته ارائه ميدهد.