• شماره ركورد
    10192
  • پديد آورنده

    مهدي حمزه‌ئي

  • عنوان
    كاهش خطاي پاسخ نادرست در مدل‌هاي زباني بزرگ با استفاده از روش ActLCD و يادگيري تقويتي
  • مقطع تحصيلي
    كارشناسي
  • رشته تحصيلي
    برق - مخابرات
  • سال فارغ التحصيلي
    1404
  • استاد راهنما
    دكتر فرزان حدادي
  • استاد مشاور
    /
  • دانشجوي وارد كننده اطلاعات

    مهدي حمزه يي

  • تاريخ ورود اطلاعات
    1404/09/24
  • دانشكده
    برق
  • عنوان به انگليسي
    Reducing Incorrect Response Generation in Large Language Models Using Active Layer-Contrastive Decoding an‎d Reinforcement Learning
  • چكيده
    محتواي نادرست يا اصطالحاً توهمزايي هستند؛ مسئلهاي كه بهويژه در متون طوالني يا وظايف نيازمند استدالل چندمرحلهاي تشديد ميشود. بخش مهمي از خطاها ناشي از تكيه بيش از حد مدل بر الگوهاي سطحي زباني و عدم بهرهبرداري بهينه از دانش واقعي نهفته در اليههاي عميق است. رويكردهاي پيشين مبتني بر مقايسه اليهها، هرچند توانستهاند با تقويت سيگنالهاي اليههاي عميق، دقت محتواي توليدي را بهبود بخشند، اما به صورت ايستا و در تمام مراحل توليد اعمال ميشوند؛ اين امر ميتواند منجر به استفاده غيرضروري از محاسبات سنگين يا حتي توليد خطاهاي جديد در مراحل ساده شود. در اين پژوهش، رويكرد رمزگشايي اليهمقايسهاي فعال – Decoding Contrastive‑Layer Active( ActLCD]1 )[معرفي ميشود كه با بازتعريف فرآيند رمزگشايي بهعنوان يك مسئله تصميمگيري متوالي، قابليت كنترل پويا بر فعالسازي يا غيرفعالسازي عمليات مقايسه اليهها را در جريان توليد متن فراهم ميكند. در اين چارچوب، هر مرحله از توليد بهعنوان يك حالت در يك فرايند تصميمگيري ماركوف در نظر گرفته شده و بر اساس وضعيت فعلي كه شامل نهاننماييها و خروجي الجيتها از اليههاي منتخب است، يك سياست يادگيري تقويتي تصميم ميگيرد آيا استفاده از مقايسه اليهاي در آن گام ضروري است يا خير. تابع پاداش بهگونهاي طراحي شده است كه هم صحت واقعي متن را حداكثر كند و هم فعالسازيهاي غيرالزم يا از دسترفته را جريمه نمايد؛ بدينترتيب مدل به تعادلي بين دقت و كارايي محاسباتي ميرسد. براي آموزش سياست تصميمگيري، از يادگيري تقويتي آفالين همراه با الگوريتم Constrained‑Batch [3]DQN بهره گرفته شده است كه از دادههاي برچسبخورده شامل تواليهاي خروجي و نقاط بهينه فعالسازي استخراج شدهاند. مرحله آغازين يادگيري با تقليد رفتاري )[4] Cloning Behavior )انجام شده و پس از آن پااليش سياست با بهروزرسانيهاي [5] Learning‑Q صورت گرفته است تا مدل ضمن حفظ نزديكي به توزيع دادههاي واقعي، استراتژيهاي بهينهتري براي كاهش خطاي توهمزايي يافته و انتخاب كند. نتايج آزمايشها روي سه شاخص نشان داده است كه ActLCD نسبت به روشهاي پيشرفته موجود، بهبود قابلتوجهي در شاخصهاي صحت واقعي، توانايي استدالل و كاهش خطاهاي انباشته ارائه ميدهد.