• شماره ركورد
    28322
  • پديد آورنده

    مهران سلماني

  • عنوان
    سازوكاري براي پيكربندي خودكار سرويس‌هاي استنتاج يادگيري ماشين
  • مقطع تحصيلي
    كارشناسي ارشد
  • رشته تحصيلي
    مهندسي كامپيوتر
  • سال تحصيل
    1399
  • تاريخ دفاع
    1402/01/30
  • استاد راهنما
    دكتر محسن شريفي
  • دانشكده
    مهندسي كامپيوتر
  • چكيده
    به‌كارگيري استنتاج يادگيري ماشين براي كاربردهاي متنوع، در حال رشد است. سرويس‌هاي استنتاج يادگيري ماشين به صورت مستقيم با كاربران در تعامل‌اند كه نيازمند پاسخ‌هاي سريع و دقيق هستند. به علاوه، اين سرويس‌ها با باركاري پوياي درخواست‌ها روبرو هستند كه نياز به تغيير در منابع محاسباتي را تحميل مي‌كند. عدم تدارك مناسب منابع باعث نقض اهداف سطح سرويس تأخير پاسخ و يا هدر رفتن منابع مي‌شود. سازگار شدن با باركاري پويا با در نظر گرفتن معيارهاي دقت، تأخير و هزينه‌ي منابع، چالشي است. در پاسخ به اين چالش‌ها، سازوكاري ارائه مي‌دهيم كه به صورت كنش‌گرايانه مجموعه‌اي از مدل‌هاي يادگيري ماشين را به همراه اندازه‌هايشان برمي‌گزيند تا هدف تأخير را برآورده كند و همزمان تابع هدفي تشكيل‌شده از دقت و هزينه را بيشينه كند. سازوكار پيشنهادي نقض هدف سطح سرويس تأخير را تا حد 65٪ و هزينه‌ي منابع را تا حد 33٪، در مقايسه با مقياس‌دهنده‌ي صنعتي محبوب (مقياس‌دهنده‌ي عمودي در كوبرنتيز) كاهش مي‌دهد.
  • تاريخ ورود اطلاعات
    1402/03/07
  • عنوان به انگليسي
    A Mechanism for Auto-Configuration of ML Inference Services
  • تاريخ بهره برداري
    4/18/2024 12:00:00 AM
  • دانشجوي وارد كننده اطلاعات

    مهران سلماني

  • چكيده به لاتين
    The use of machine learning (ML) inference for various applications is growing drastically. ML inference services engage with users directly, requiring fast and accurate responses. Moreover, these services face dynamic workloads of requests, imposing changes in their computing resources. Failing to right-size computing resources results in either latency service level objectives (SLOs) violations or wasted computing resources. Adapting to dynamic workloads considering all the pillars of accuracy, latency, and resource cost is challenging. In response to these challenges, we propose InfAdapter, that proactively selects a set of ML model variants with their resource allocations to meet latency SLO while maximizing an objective function composed of accuracy and cost. InfAdapter decreases SLO violation and costs up to 65% and 33%, respectively, compared to a popular industry autoscaler (Kubernetes Vertical Pod Autoscaler).
  • كليدواژه هاي فارسي
    استنتاج يادگيري ماشين , مقياس‌دهي خودكار , تعويض مدل , سازگارسازي باركاري
  • كليدواژه هاي لاتين
    ML Inference , Auto-Scaling , Model-Switching , Workload Adaptation
  • Author
    Mehran Salmani
  • SuperVisor
    Dr. Mohsen Sharifi