شماره ركورد
10359
پديد آورنده
اميرعلي ستوده حقيقي فرد- محمدمهدي شامخي
عنوان
الگوريتم هاي برخط براي زمانبندي و كنترل پذيرش در مدلهاي زباني بزرگ
مقطع تحصيلي
كارشناسي
رشته تحصيلي
مهندسي كامپيوتر
سال فارغ التحصيلي
1405
استاد راهنما
خانم دكتر ملكي مجد
دانشجوي وارد كننده اطلاعات
اميرعلي ستوده حقيقي فرد
تاريخ ورود اطلاعات
1405/03/20
دانشكده
مهندسي كامپيوتر
عنوان به انگليسي
Online Algorithms for Scheduling and Admission Control in Large Language Model Inference
چكيده
با گسترش روزافزون كاربرد مدلهاي زباني بزرگ در سامانههاي هوشمند، مديريت بهينه منابع براي سرويسدهي به درخواستهاي انبوه به يكي از چالشهاي اصلي زيرساختي تبديل شده است. گلوگاه كليدي در اين فرآيند، مديريت حافظه اختصاصيافته به «حافظه نهان كليد_مقدار» است. برخلاف مسائل زمانبندي سنتي كه در آنها مصرف منابع ثابت فرض ميشود، در فرآيند استنتاج مدلهاي زباني، ميزان اشغال حافظه به صورت «پلكاني و انباشتهشونده» با توليد هر توكن افزايش مييابد. اين ويژگي در كنار ماهيت «برخط» و «غيرقابلبازگشت» بودن تصميمات در سامانههاي واقعي، تخصيص منابع را به يك مسئله پيچيده در حوزه كنترل پذيرش تبديل ميكند.
در اين پژوهش، يك چارچوب نظري براي مسئله كنترل پذيرش برخط با هدف بيشينهسازي توان عملياتي كل سامانه ارائه شده است. دستاورد اصلي اين تحقيق، طراحي الگوريتمهاي برخطي است كه بر اساس «آستانههاي پذيرش پويا» و «تقسيمبندي هوشمندانه ظرفيت»، ميان درخواستهايي با طولهاي متفاوت تعادل برقرار ميكنند. در اين راستا، ابتدا مسئله براي حالت پايه با دو نوع طول درخواست (كوتاه و بلند) مدلسازي شده و الگوريتمي با رزرو بهينه ظرفيت ارائه ميگردد. سپس، اين رويكرد به حالت عمومي براي مديريت همزمان درخواستهايي با هر تعداد كلاس طولي متفاوت تعميم داده ميشود.
عملكرد الگوريتمهاي پيشنهادي با استفاده از ابزار «تحليل رقابتي» ارزيابي شده و نسبت رقابتي آنها در برابر راهكار بهينه آفلاين به صورت رياضي اثبات ميگردد. نتايج اين تحليلها نشان ميدهد كه رويكرد پيشنهادي، برخلاف الگوريتمهاي حريصانه كه در مواجهه با درخواستهاي طولاني دچار اشباع حافظه ميشوند، با تضمين نسبت رقابتي استوار، به پايداري سيستم و افزايش قابلتوجه بهرهوري كل حافظه در سناريوهاي پوياي عملياتي منجر ميشود.