حاتم ابوالقاسمي

عنوان

زمان بندي برنامه هاي يادگيري عميق در خوشه هاي كوبرنتيز با استفاده از تقويت گراديان

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

مهندسي نرم افزار

سال تحصيل

1401

تاريخ دفاع

1404/05/27

استاد راهنما

دكتر مهرداد آشتياني

استاد مشاور

دكتر مرضيه ملكي مجد

دانشكده

مهندسي كامپيوتر

چكيده

در سال‌هاي اخير، يادگيري عميق به‌عنوان زيرمجموعه‌اي از يادگيري ماشين، به‌دليل توانايي در انجام وظايف پيچيده‌اي مانند تشخيص تصوير، پردازش زبان طبيعي و تحليل رفتار، مورد توجه گسترده‌اي قرار گرفته است. با اين حال، استقرار اين مدل‌ها در محيط‌هاي مبتني بر ظرف اجرايي با چالش‌هايي نظير مقياس‌پذيري، مديريت منابع و سازگاري بارهاي كاري مواجه است. به‌ويژه، نياز پيوسته به منابع محاسباتي سنگين و ماهيت پويا و متغير بارهاي كاري، لزوم استفاده از راهكارهاي هوشمند زمان‌بندي را برجسته مي‌سازد. در اين پايان‌نامه، چارچوبي نوين براي زمان‌بندي آگاه از بار كاري در محيط‌هاي ظرف اجرايي‌سازي‌شده‌ي يادگيري عميق ارائه شده است. اين چارچوب با استفاده از الگوريتم تقويتي عامل-منتقد نرم، تصميمات تخصيص منابع را به‌صورت پويا و با تكيه بر تحليل هم‌زمان شاخص‌هاي سيستمي نظير مصرف CPU، GPU و حافظه و ويژگي‌هاي خاص بارهاي يادگيري مانند پيچيدگي مدل و ميزان پيشرفت آموزش اتخاذ مي‌كند. همچنين، يك مؤلفه‌ي مكمل براي بهينه‌سازي پارامترهاي ورودي هر كار، شامل اندازه‌ي دسته، تعداد دوره‌هاي آموزش و مقدار منابع درخواستي، پيش از زمان‌بندي طراحي شده است. جهت ارزيابي عملكرد سامانه، شبيه‌سازي جامعي با استفاده از داده‌هاي واقعي ردگيري خوشه‌ي Alibaba و در بستري شامل 13 گره همگن انجام شد. نتايج تجربي نشان مي‌دهند كه چارچوب پيشنهادي، زمان متوسط تكميل كارها را تا 38٪ كاهش داده، دقت آموزش را به 85٪ افزايش داده و ميانگين خطاي آموزش را به 0٫27 رسانده است. همچنين، مصرف CPU تا 20٪، مصرف GPU تا 18٪ و مصرف حافظه تا 15٪ كاهش يافته و توزيع منابع نيز متعادل‌تر شده است. اين نتايج بيانگر كارايي بالاي رويكرد پيشنهادي در بهبود بهره‌وري و مقياس‌پذيري بارهاي يادگيري عميق در زيرساخت‌هاي مدرن مبتني بر ظرف اجرايي است.

تاريخ ورود اطلاعات

1404/09/10

عنوان به انگليسي

Scheduling deep learning applications on Kubernetes clusters using gradient boosting

تاريخ بهره برداري

8/18/2026 12:00:00 AM

دانشجوي وارد كننده اطلاعات

حاتم ابوالقاسمي

Name: حاتم ابوالقاسمي
Author: حاتم ابوالقاسمي

چكيده به لاتين

In recent years, deep learning, as a subset of machine learning, has gained widespread attention due to its ability to perform complex tasks such as image recognition, natural language processing, an‎d behavior analysis. However, deploying these models in container-based environments faces challenges including scalability, resource management, an‎d workload adaptability. In particular, the continuous deman‎d for heavy computational resources an‎d the dynamic, variable nature of workloads highlight the necessity for intelligent scheduling solutions. This thesis presents a novel workload-aware scheduling framework for containerized deep learning environments. Utilizing a soft actor-critic reinforcement learning algorithm, the framework dynamically makes resource allocation decisions by simultaneously analyzing system metrics such as CPU, GPU, an‎d memory usage along with workload-specific features like model complexity an‎d training progress. Additionally, a complementary component is designed to optimize the input parameters of each job—including batch size, number of training epochs, an‎d requested resource amounts—prior to scheduling. To eva‎luate the system’s performance, comprehensive simulations were conducted using real trace data from the Alibaba cluster over a homogeneous 13-node infrastructure. Experimental results demonstrate that the proposed framework reduces the average job completion time by up to 38%, improves training accuracy to 85%, an‎d decreases the average training error to 0.27. Moreover, CPU consumption was reduced by 20%, GPU consumption by 18%, an‎d memory usage by 15%, while resource distribution became more balanced. These results indicate the high efficiency of the proposed approach in enhancing the productivity an‎d scalability of deep learning workloads in modern container-based infrastructures.

كليدواژه هاي فارسي

يادگيري عميق , گنجانه سازي , مقياس پذيري , چالش هاي استقرار

كليدواژه هاي لاتين

deep learning , containerization , scalability , deployment challenges

Author

Hatam Abolghasemi

SuperVisor

Mehrdad Ashtiani

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=34113&Field=0&DTC=6