شماره ركورد
34113
پديد آورنده
حاتم ابوالقاسمي
عنوان
زمان بندي برنامه هاي يادگيري عميق در خوشه هاي كوبرنتيز با استفاده از تقويت گراديان
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
مهندسي نرم افزار
سال تحصيل
1401
تاريخ دفاع
1404/05/27
استاد راهنما
دكتر مهرداد آشتياني
استاد مشاور
دكتر مرضيه ملكي مجد
دانشكده
مهندسي كامپيوتر
چكيده
در سالهاي اخير، يادگيري عميق بهعنوان زيرمجموعهاي از يادگيري ماشين، بهدليل توانايي در انجام وظايف پيچيدهاي مانند تشخيص تصوير، پردازش زبان طبيعي و تحليل رفتار، مورد توجه گستردهاي قرار گرفته است. با اين حال، استقرار اين مدلها در محيطهاي مبتني بر ظرف اجرايي با چالشهايي نظير مقياسپذيري، مديريت منابع و سازگاري بارهاي كاري مواجه است. بهويژه، نياز پيوسته به منابع محاسباتي سنگين و ماهيت پويا و متغير بارهاي كاري، لزوم استفاده از راهكارهاي هوشمند زمانبندي را برجسته ميسازد. در اين پاياننامه، چارچوبي نوين براي زمانبندي آگاه از بار كاري در محيطهاي ظرف اجراييسازيشدهي يادگيري عميق ارائه شده است. اين چارچوب با استفاده از الگوريتم تقويتي عامل-منتقد نرم، تصميمات تخصيص منابع را بهصورت پويا و با تكيه بر تحليل همزمان شاخصهاي سيستمي نظير مصرف CPU، GPU و حافظه و ويژگيهاي خاص بارهاي يادگيري مانند پيچيدگي مدل و ميزان پيشرفت آموزش اتخاذ ميكند. همچنين، يك مؤلفهي مكمل براي بهينهسازي پارامترهاي ورودي هر كار، شامل اندازهي دسته، تعداد دورههاي آموزش و مقدار منابع درخواستي، پيش از زمانبندي طراحي شده است. جهت ارزيابي عملكرد سامانه، شبيهسازي جامعي با استفاده از دادههاي واقعي ردگيري خوشهي Alibaba و در بستري شامل 13 گره همگن انجام شد. نتايج تجربي نشان ميدهند كه چارچوب پيشنهادي، زمان متوسط تكميل كارها را تا 38٪ كاهش داده، دقت آموزش را به 85٪ افزايش داده و ميانگين خطاي آموزش را به 0٫27 رسانده است. همچنين، مصرف CPU تا 20٪، مصرف GPU تا 18٪ و مصرف حافظه تا 15٪ كاهش يافته و توزيع منابع نيز متعادلتر شده است. اين نتايج بيانگر كارايي بالاي رويكرد پيشنهادي در بهبود بهرهوري و مقياسپذيري بارهاي يادگيري عميق در زيرساختهاي مدرن مبتني بر ظرف اجرايي است.
تاريخ ورود اطلاعات
1404/09/10
عنوان به انگليسي
Scheduling deep learning applications on Kubernetes clusters using gradient boosting
تاريخ بهره برداري
8/18/2026 12:00:00 AM
دانشجوي وارد كننده اطلاعات
حاتم ابوالقاسمي
چكيده به لاتين
In recent years, deep learning, as a subset of machine learning, has gained widespread attention due to its ability to perform complex tasks such as image recognition, natural language processing, and behavior analysis. However, deploying these models in container-based environments faces challenges including scalability, resource management, and workload adaptability. In particular, the continuous demand for heavy computational resources and the dynamic, variable nature of workloads highlight the necessity for intelligent scheduling solutions. This thesis presents a novel workload-aware scheduling framework for containerized deep learning environments. Utilizing a soft actor-critic reinforcement learning algorithm, the framework dynamically makes resource allocation decisions by simultaneously analyzing system metrics such as CPU, GPU, and memory usage along with workload-specific features like model complexity and training progress. Additionally, a complementary component is designed to optimize the input parameters of each job—including batch size, number of training epochs, and requested resource amounts—prior to scheduling. To evaluate the system’s performance, comprehensive simulations were conducted using real trace data from the Alibaba cluster over a homogeneous 13-node infrastructure. Experimental results demonstrate that the proposed framework reduces the average job completion time by up to 38%, improves training accuracy to 85%, and decreases the average training error to 0.27. Moreover, CPU consumption was reduced by 20%, GPU consumption by 18%, and memory usage by 15%, while resource distribution became more balanced. These results indicate the high efficiency of the proposed approach in enhancing the productivity and scalability of deep learning workloads in modern container-based infrastructures.
كليدواژه هاي فارسي
يادگيري عميق , گنجانه سازي , مقياس پذيري , چالش هاي استقرار
كليدواژه هاي لاتين
deep learning , containerization , scalability , deployment challenges
Author
Hatam Abolghasemi
SuperVisor
Mehrdad Ashtiani