شماره ركورد
10274
پديد آورنده
غزل عربعلي
عنوان
يادگيري تقويتي چندعامله براي سيستم هاي پردازش محلي (لبه) و ابري
مقطع تحصيلي
كارشناسي
رشته تحصيلي
مهندسي كامپيوتر
سال فارغ التحصيلي
1404
استاد راهنما
دكتر محمدرضا جاهدمطلق
استاد مشاور
دكتر مرضيه ملكيمجد
دانشجوي وارد كننده اطلاعات
غزل عربعلي
تاريخ ورود اطلاعات
1404/12/03
دانشكده
مهندسي كامپيوتر
عنوان به انگليسي
Multi-Agent Reinforcement Learning for Edge-Cloud Systems
چكيده
رشد سريع اينترنت اشياء و شبكههاي نسل پنجم و ششم همراه با گسترش سرويسهاي بلادرنگ مانند واقعيت مجازي، پردازش لحظهاي محتواي ويدئويي و تحليل دادههاي حسگر، موجب شدهاست كه رايانش لبه-ابر و مسئله بارسپاري وظايف به يكي از موضوعات كليدي در حوزه سيستمهاي توزيعشده تبديل شود. اين چالش مستلزم تعيين محل اجراي وظايف در دستگاه محلي، گره لبه يا ابر بهصورت بلادرنگ و در شرايط پويا است. پژوهش حاضر با هدف كاهش همزمان تأخير اجراي وظايف و كاهش نرخ ريزش وظايف داراي موعد زماني مشخص، يك چارچوب هوشمند و سلسلهمراتبي براي بارسپاري در محيطهاي ناهمگن لبه-ابر ارائه ميدهد. در چارچوب پيشنهادي، ابتدا با استفاده از نمايهسازي رفتاري، سرورهاي لبه براساس الگوي ورود كار و منابع در خوشههاي همگن گروهبندي ميشوند. سپس مسئله بارسپاري با رويكردي مبتني بر يادگيري تقويتي مدل ميشود. نوآوري اصلي پژوهش در ارائه يك لايه انتخابگر تطبيقي است كه بهجاي اتكا به يك الگوريتم ثابت، بهصورت پويا در سطح خوشه بين چندين الگوريتم منتخب يادگيري تقويتي شامل DQN، PPO، A3C و TD3 جابهجا ميشود. اين سازوكار در دو فاز آفلاين با مرحله پيشآموزش و آنلاين با قابليت سازگاري با دادههاي جديد عمل ميكند. لايه انتخابگر با سازوكار Contextual Bandit بهطور پيوسته عملكرد خوشهها را پايش كرده و در صورت افت معنادار، الگوريتم فعال را تغيير ميدهد؛ براي جلوگيري از ناپايداري نيز دو مكانيزم بازه قفل و بازگشت سريع در معماري تعبيه شده است. همچنين، براي افزايش انعطاف در برابر نوسانات و درك روندهاي زماني بار، پيشبيني بار مبتني بر شبكه LSTM نيز در فرايند تصميمگيري لحاظ ميشود. براي تحليل حساسيت، ارزيابي نتايج در انواع همبنديهاي شبكه و سناريوهاي بار ترافيكي متفاوت، انجام شدهاست. نتايج نشان ميدهند كه اين چارچوب بهويژه در سناريوهاي متوسط و سنگين بار، عملكرد بهتري نسبت به بهترين الگوريتم منفرد دارد. در بار متوسط كاهش تأخير حدود 0.54 درصد و در بار سنگين حدود 3.90 درصد مشاهده شد. از سوي ديگر، كاهش نرخ ريزش وظايف داراي موعد زماني در بار سبك حدود 14.37 درصد، در بار متوسط حدود 6.92 درصد و در بار سنگين حدود 8.53 درصد گزارش شدهاست. اين نتايج نشان ميدهند كه تركيب خوشهبندي رفتاري با انتخاب تطبيقي الگوريتم ميتواند كنترل ازدحام و كيفيت خدمت را در محيطهاي ناهمگن لبه-ابر بهطور مؤثري بهبود بخشد.