غزل عربعلي

عنوان

يادگيري تقويتي چندعامله براي سيستم هاي پردازش محلي (لبه) و ابري

مقطع تحصيلي

كارشناسي

رشته تحصيلي

مهندسي كامپيوتر

سال فارغ التحصيلي

1404

استاد راهنما

دكتر محمدرضا جاهدمطلق

استاد مشاور

دكتر مرضيه ملكي‌مجد

دانشجوي وارد كننده اطلاعات

غزل عربعلي

Name: غزل عربعلي
Author: غزل عربعلي

تاريخ ورود اطلاعات

1404/12/03

دانشكده

مهندسي كامپيوتر

عنوان به انگليسي

Multi-Agent Reinforcement Learning for Edge-Cloud Systems

چكيده

رشد سريع اينترنت اشياء و شبكه‌هاي نسل پنجم و ششم همراه با گسترش سرويس‌هاي بلادرنگ مانند واقعيت مجازي، پردازش لحظه‌اي محتواي ويدئويي و تحليل داده‌هاي حسگر، موجب شده‌است كه رايانش لبه-ابر و مسئله بارسپاري وظايف به يكي از موضوعات كليدي در حوزه سيستم‌هاي توزيع‌شده تبديل شود. اين چالش مستلزم تعيين محل اجراي وظايف در دستگاه محلي، گره لبه يا ابر به‌صورت بلادرنگ و در شرايط پويا است. پژوهش حاضر با هدف كاهش هم‌زمان تأخير اجراي وظايف و كاهش نرخ ريزش وظايف داراي موعد زماني مشخص، يك چارچوب هوشمند و سلسله‌مراتبي براي بارسپاري در محيط‌هاي ناهمگن لبه-ابر ارائه مي‌دهد. در چارچوب پيشنهادي، ابتدا با استفاده از نمايه‌سازي رفتاري، سرورهاي لبه براساس الگوي ورود كار و منابع در خوشه‌هاي همگن گروه‌بندي مي‌شوند. سپس مسئله بارسپاري با رويكردي مبتني بر يادگيري تقويتي مدل مي‌شود. نوآوري اصلي پژوهش در ارائه يك لايه انتخابگر تطبيقي است كه به‌جاي اتكا به يك الگوريتم ثابت، به‌صورت پويا در سطح خوشه بين چندين الگوريتم منتخب يادگيري تقويتي شامل DQN، PPO، A3C و TD3 جابه‌جا مي‌شود. اين سازوكار در دو فاز آفلاين با مرحله پيش‌آموزش و آنلاين با قابليت سازگاري با داده‌هاي جديد عمل مي‌كند. لايه انتخابگر با سازوكار Contextual Bandit به‌طور پيوسته عملكرد خوشه‌ها را پايش كرده و در صورت افت معنادار، الگوريتم فعال را تغيير مي‌دهد؛ براي جلوگيري از ناپايداري نيز دو مكانيزم بازه قفل و بازگشت سريع در معماري تعبيه شده است. همچنين، براي افزايش انعطاف در برابر نوسانات و درك روندهاي زماني بار، پيش‌بيني بار مبتني بر شبكه LSTM نيز در فرايند تصميم‌گيري لحاظ مي‌شود. براي تحليل حساسيت، ارزيابي‌ نتايج در انواع هم‌بندي‌هاي شبكه و سناريوهاي بار ترافيكي متفاوت، انجام شده‌است. نتايج نشان مي‌دهند كه اين چارچوب به‌ويژه در سناريو‌هاي متوسط و سنگين بار، عملكرد بهتري نسبت به بهترين الگوريتم منفرد دارد. در بار متوسط كاهش تأخير حدود 0.54 درصد و در بار سنگين حدود 3.90 درصد مشاهده شد. از سوي ديگر، كاهش نرخ ريزش وظايف داراي موعد زماني در بار سبك حدود 14.37 درصد، در بار متوسط حدود 6.92 درصد و در بار سنگين حدود 8.53 درصد گزارش شده‌است. اين نتايج نشان مي‌دهند كه تركيب خوشه‌بندي رفتاري با انتخاب تطبيقي الگوريتم مي‌تواند كنترل ازدحام و كيفيت خدمت را در محيط‌هاي ناهمگن لبه-ابر به‌طور مؤثري بهبود بخشد.

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=10274&Field=0&DTC=12