• شماره ركورد
    31285
  • پديد آورنده

    فاطمه انوار

  • عنوان
    ارائه مدلي براي تركيب هوشمند خدمات با استفاده از رويكرد يادگيري تقويتي با در نظر گرفتن پارامترهاي لجستيكي
  • مقطع تحصيلي
    كارشناسي ارشد
  • رشته تحصيلي
    فناوري ارتباطات و اطلاعات
  • سال تحصيل
    1401
  • تاريخ دفاع
    1403/07/01
  • استاد راهنما
    دكتر محمدرضا رسولي
  • استاد مشاور
    دكتر هادي صاحبي
  • دانشكده
    مهندسي صنايع
  • چكيده
    توليد ابري به عنوان يك رويكرد جديد در مديريت فرآيندهاي توليد به دليل توانايي‌هاي بالاي خود در مقياس‌پذيري و انعطاف‌پذيري، به يك روش كليدي در بهينه‌سازي فرآيندهاي توليد تبديل شده است. در اين بين تركيب خدمات و تخصيص بهينه منابع توليد به منظور تركيب چندين خدمت و ارائه خدمت نهايي با استفاده بهينه از منابع و حداكثر ارزش افزوده يكي از مسائل اساسي در توليد ابري به شمار مي‌آيد. در اين پژوهش، به مسئله تركيب خدمات پويا در محيط‌هاي توليد چند محصولي با فرآيندهاي توليد متفاوت و در عين حال داراي اشتراك در نوع خدمات مورد نياز و منابع توليدي با در نظر گرفتن پارامترهاي لجستيك و توزيع به مراكز تقاضا، پرداخته شده است. رويكرد پژوهش بهبود فرآيند توليد با به كارگيري حداكثر منابع موجود با هدف ارتقا كيفيت خدمت در سرويس ارائه شده مي‌باشد. اغلب مطالعات صورت گرفته در اين حوزه طي سال‌هاي اخير، از روش‌هاي فراابتكاري استفاده كرده‌اند كه در عين نيازمندي به طراحي‌هاي پيچيده ساختاري، فاقد سازگاري لازم با محيط‌هاي پويا مي‌باشند. يادگيري تقويتي عميق، به دليل قابليت‌هاي خود در مديريت تصميم‌گيري‌هاي پيچيده و در شرايط عدم قطعيت، به‌ويژه در محيط‌هاي توليد ابري، به عنوان يك روش موثر در سال‌هاي اخير مورد توجه قرار گرفته است. اين الگوريتم‌ها با ارائه راه‌حل‌هاي هوشمندانه و تطبيق‌پذير، به بهبود كيفيت خدمت و كاهش زمان توليد كمك مي‌كنند. براي حل مسئله مورد نظر، يك رويكرد تركيب خدمات مبتني بر گراديان سياست قطعي عميق با حافظه بازپخش اولويت‌دار ارائه شده است كه از طريق تكرار آموزش، راه‌حل‌هاي بهينه تركيب خدمات را ياد مي‌گيرد. عملكرد اين مدل در حل مسئله بررسي و با الگوريتم‌هاي Q-learning و DDQN مقايسه شده است. نتايج نشان مي‌دهند كه مدل پيشنهادي همگرايي سريع‌تر و كيفيت خدمت بهينه‌اي نسبت به دو مدل ديگر دارد. هرچند زمان پاسخ‌دهي مدل DDPG به دليل پيچيدگي‌هاي ساختاري آن بيشتر است، اما مزاياي ديگر آن اين تاخير را جبران مي‌كند. همچنين، اين مدل در فضاي عملي حداقل 200٪ بهبود در زمان توليد و كاهش زمان انتظار را نشان داده و تا 20٪ تغيير در منابع را با استحكام تحمل مي‌كند.
  • تاريخ ورود اطلاعات
    1403/07/15
  • عنوان به انگليسي
    Reinforcement Learning-Aware Service Composition Considering Logistics Parameters
  • تاريخ بهره برداري
    9/22/2025 12:00:00 AM
  • دانشجوي وارد كننده اطلاعات

    فاطمه انوار

  • چكيده به لاتين
    Cloud manufacturing, as a novel approach in managing manufacturing processes due to its high scalability and flexibility, has become a key method in optimizing production workflows. Among the core challenges in cloud manufacturing is the integration of services and optimal resource allocation to combine multiple services and deliver a final product with efficient use of resources and maximum added value. This research addresses the issue of dynamic service composition in multi-product manufacturing environments with diverse processes, yet shared service requirements and production resources, taking into account logistics parameters and distribution to demand centers. The study's approach focuses on improving the manufacturing process by utilizing maximum available resources with the goal of enhancing service quality in the delivered product. Most recent studies in this area have employed metaheuristic methods, which, despite requiring complex structural designs, lack necessary adaptability in dynamic environments. Deep Reinforcement Learning (DRL), due to its capabilities in managing complex decision-making under uncertainty, has gained attention as an effective method in recent years, particularly in cloud manufacturing environments. These algorithms provide intelligent and adaptive solutions that contribute to improving service quality and reducing production time. To address the problem, a service composition approach based on Deep Deterministic Policy Gradient (DDPG) with prioritized experience replay is proposed. Through iterative training, it learns optimal service composition solutions. The performance of this model is eva‎luated and compared with Q-learning and DDQN algorithms. The results indicate that the proposed model achieves faster convergence and optimal service quality compared to the other two models. Although the response time of the DDPG model is higher due to its structural complexity, its other advantages compensate for this delay. Furthermore, in a practical setting, the model demonstrates at least a 200% improvement in production time and reduced waiting time, while also showing robust tolerance to up to 20% changes in resources.
  • كليدواژه هاي فارسي
    يادگيري تقويتي , گراديان سياست قطعي عميق , تخصيص منابع , تركيب خدمات , كيفيت خدمت
  • كليدواژه هاي لاتين
    Reinforcement learning , Deep Deterministic Policy Gradient , resource matching , service composition , Quality of service
  • Author
    Fatemeh Anvar
  • SuperVisor
    Dr Mohammad Reza Rasouli