-
شماره ركورد
31285
-
پديد آورنده
فاطمه انوار
-
عنوان
ارائه مدلي براي تركيب هوشمند خدمات با استفاده از رويكرد يادگيري تقويتي با در نظر گرفتن پارامترهاي لجستيكي
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
فناوري ارتباطات و اطلاعات
-
سال تحصيل
1401
-
تاريخ دفاع
1403/07/01
-
استاد راهنما
دكتر محمدرضا رسولي
-
استاد مشاور
دكتر هادي صاحبي
-
دانشكده
مهندسي صنايع
-
چكيده
توليد ابري به عنوان يك رويكرد جديد در مديريت فرآيندهاي توليد به دليل تواناييهاي بالاي خود در مقياسپذيري و انعطافپذيري، به يك روش كليدي در بهينهسازي فرآيندهاي توليد تبديل شده است. در اين بين تركيب خدمات و تخصيص بهينه منابع توليد به منظور تركيب چندين خدمت و ارائه خدمت نهايي با استفاده بهينه از منابع و حداكثر ارزش افزوده يكي از مسائل اساسي در توليد ابري به شمار ميآيد.
در اين پژوهش، به مسئله تركيب خدمات پويا در محيطهاي توليد چند محصولي با فرآيندهاي توليد متفاوت و در عين حال داراي اشتراك در نوع خدمات مورد نياز و منابع توليدي با در نظر گرفتن پارامترهاي لجستيك و توزيع به مراكز تقاضا، پرداخته شده است. رويكرد پژوهش بهبود فرآيند توليد با به كارگيري حداكثر منابع موجود با هدف ارتقا كيفيت خدمت در سرويس ارائه شده ميباشد.
اغلب مطالعات صورت گرفته در اين حوزه طي سالهاي اخير، از روشهاي فراابتكاري استفاده كردهاند كه در عين نيازمندي به طراحيهاي پيچيده ساختاري، فاقد سازگاري لازم با محيطهاي پويا ميباشند. يادگيري تقويتي عميق، به دليل قابليتهاي خود در مديريت تصميمگيريهاي پيچيده و در شرايط عدم قطعيت، بهويژه در محيطهاي توليد ابري، به عنوان يك روش موثر در سالهاي اخير مورد توجه قرار گرفته است. اين الگوريتمها با ارائه راهحلهاي هوشمندانه و تطبيقپذير، به بهبود كيفيت خدمت و كاهش زمان توليد كمك ميكنند.
براي حل مسئله مورد نظر، يك رويكرد تركيب خدمات مبتني بر گراديان سياست قطعي عميق با حافظه بازپخش اولويتدار ارائه شده است كه از طريق تكرار آموزش، راهحلهاي بهينه تركيب خدمات را ياد ميگيرد. عملكرد اين مدل در حل مسئله بررسي و با الگوريتمهاي Q-learning و DDQN مقايسه شده است. نتايج نشان ميدهند كه مدل پيشنهادي همگرايي سريعتر و كيفيت خدمت بهينهاي نسبت به دو مدل ديگر دارد. هرچند زمان پاسخدهي مدل DDPG به دليل پيچيدگيهاي ساختاري آن بيشتر است، اما مزاياي ديگر آن اين تاخير را جبران ميكند. همچنين، اين مدل در فضاي عملي حداقل 200٪ بهبود در زمان توليد و كاهش زمان انتظار را نشان داده و تا 20٪ تغيير در منابع را با استحكام تحمل ميكند.
-
تاريخ ورود اطلاعات
1403/07/15
-
عنوان به انگليسي
Reinforcement Learning-Aware Service Composition Considering Logistics Parameters
-
تاريخ بهره برداري
9/22/2025 12:00:00 AM
-
دانشجوي وارد كننده اطلاعات
فاطمه انوار
-
چكيده به لاتين
Cloud manufacturing, as a novel approach in managing manufacturing processes due to its high scalability and flexibility, has become a key method in optimizing production workflows. Among the core challenges in cloud manufacturing is the integration of services and optimal resource allocation to combine multiple services and deliver a final product with efficient use of resources and maximum added value. This research addresses the issue of dynamic service composition in multi-product manufacturing environments with diverse processes, yet shared service requirements and production resources, taking into account logistics parameters and distribution to demand centers.
The study's approach focuses on improving the manufacturing process by utilizing maximum available resources with the goal of enhancing service quality in the delivered product. Most recent studies in this area have employed metaheuristic methods, which, despite requiring complex structural designs, lack necessary adaptability in dynamic environments. Deep Reinforcement Learning (DRL), due to its capabilities in managing complex decision-making under uncertainty, has gained attention as an effective method in recent years, particularly in cloud manufacturing environments. These algorithms provide intelligent and adaptive solutions that contribute to improving service quality and reducing production time.
To address the problem, a service composition approach based on Deep Deterministic Policy Gradient (DDPG) with prioritized experience replay is proposed. Through iterative training, it learns optimal service composition solutions. The performance of this model is evaluated and compared with Q-learning and DDQN algorithms. The results indicate that the proposed model achieves faster convergence and optimal service quality compared to the other two models. Although the response time of the DDPG model is higher due to its structural complexity, its other advantages compensate for this delay. Furthermore, in a practical setting, the model demonstrates at least a 200% improvement in production time and reduced waiting time, while also showing robust tolerance to up to 20% changes in resources.
-
كليدواژه هاي فارسي
يادگيري تقويتي , گراديان سياست قطعي عميق , تخصيص منابع , تركيب خدمات , كيفيت خدمت
-
كليدواژه هاي لاتين
Reinforcement learning , Deep Deterministic Policy Gradient , resource matching , service composition , Quality of service
-
Author
Fatemeh Anvar
-
SuperVisor
Dr Mohammad Reza Rasouli
-
لينک به اين مدرک :