• شماره ركورد
    10359
  • پديد آورنده

    اميرعلي ستوده حقيقي فرد- محمدمهدي شامخي

  • عنوان
    الگوريتم هاي برخط براي زمان‌بندي و كنترل پذيرش در مدل‌هاي زباني بزرگ
  • مقطع تحصيلي
    كارشناسي
  • رشته تحصيلي
    مهندسي كامپيوتر
  • سال فارغ التحصيلي
    1405
  • استاد راهنما
    خانم دكتر ملكي مجد
  • دانشجوي وارد كننده اطلاعات

    اميرعلي ستوده حقيقي فرد

  • تاريخ ورود اطلاعات
    1405/03/20
  • دانشكده
    مهندسي كامپيوتر
  • عنوان به انگليسي
    Online Algorithms for Scheduling an‎d Admission Control in Large Language Model Inference
  • چكيده
    با گسترش روزافزون كاربرد مدل‌هاي زباني بزرگ در سامانه‌هاي هوشمند، مديريت بهينه منابع براي سرويس‌دهي به درخواست‌هاي انبوه به يكي از چالش‌هاي اصلي زيرساختي تبديل شده است. گلوگاه كليدي در اين فرآيند، مديريت حافظه اختصاص‌يافته به «حافظه نهان كليد_مقدار» است. برخلاف مسائل زمان‌بندي سنتي كه در آن‌ها مصرف منابع ثابت فرض مي‌شود، در فرآيند استنتاج مدل‌هاي زباني، ميزان اشغال حافظه به صورت «پلكاني و انباشته‌شونده» با توليد هر توكن افزايش مي‌يابد. اين ويژگي در كنار ماهيت «برخط» و «غيرقابل‌بازگشت» بودن تصميمات در سامانه‌هاي واقعي، تخصيص منابع را به يك مسئله پيچيده در حوزه كنترل پذيرش تبديل مي‌كند. در اين پژوهش، يك چارچوب نظري براي مسئله كنترل پذيرش برخط با هدف بيشينه‌سازي توان عملياتي كل سامانه ارائه شده است. دستاورد اصلي اين تحقيق، طراحي الگوريتم‌هاي برخطي است كه بر اساس «آستانه‌هاي پذيرش پويا» و «تقسيم‌بندي هوشمندانه ظرفيت»، ميان درخواست‌هايي با طول‌هاي متفاوت تعادل برقرار مي‌كنند. در اين راستا، ابتدا مسئله براي حالت پايه با دو نوع طول درخواست (كوتاه و بلند) مدل‌سازي شده و الگوريتمي با رزرو بهينه ظرفيت ارائه مي‌گردد. سپس، اين رويكرد به حالت عمومي براي مديريت همزمان درخواست‌هايي با هر تعداد كلاس طولي متفاوت تعميم داده مي‌شود. عملكرد الگوريتم‌هاي پيشنهادي با استفاده از ابزار «تحليل رقابتي» ارزيابي شده و نسبت رقابتي آن‌ها در برابر راهكار بهينه آفلاين به صورت رياضي اثبات مي‌گردد. نتايج اين تحليل‌ها نشان مي‌دهد كه رويكرد پيشنهادي، برخلاف الگوريتم‌هاي حريصانه كه در مواجهه با درخواست‌هاي طولاني دچار اشباع حافظه مي‌شوند، با تضمين نسبت رقابتي استوار، به پايداري سيستم و افزايش قابل‌توجه بهره‌وري كل حافظه در سناريوهاي پوياي عملياتي منجر مي‌شود.