-
شماره ركورد
23922
-
پديد آورنده
سينا يوسف زاده مرندي
-
عنوان
طراحي يك الگوريتم يادگيري تقويتي براي تخصيص توان بهينه در شبكه NOMA در حضور اخلال گر هوشمند
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
مهندسي فناوري اطلاعات- مخابرات امن
-
سال تحصيل
1396
-
تاريخ دفاع
1399/10/05
-
استاد راهنما
دكتر محمد حسين كهائي
-
استاد مشاور
دكتر سيد محمد رضوي زاده
-
دانشكده
مهندسي برق
-
چكيده
سامانه¬هاي دسترسي چندگانه¬ي غير متعامد (NOMA) ، زماني كه تداخل بين سلولي وجود داشته باشد، كاهش عملكرد شديدي خواهند داشت. در اين شرايط اگر يك اخلال گر هوشمند در محيط حضور داشته باشد، به سادگي مي¬تواند باعث قطع ارتباط كاربران ضعيف، و يا كاهش زياد مجموع نرخ داده كل شبكه شود. در اين پايان نامه، مسأله¬ي تخصيص توان دو ايستگاه پايه (BS) كه با هم تداخل بين سلولي دارند، و يك اخلال گر هوشمند، به صورت يك بازي ترتيبي، مدل شده است. در اين مسأله، توابع سودمندي غير خودخواهانه جديدي براي BSها پيشنهاد شده است. راهبرد بهينه اخلال گر (به عنوان دنبال كننده) به عنوان تابعي از شرايط مخابراتي و راهبرد BSها، تعيين شده است. براي به دست آوردن نقاط تعادل كل بازي، نقاط تعادل نش (NE) بين BSها، و نقطه¬ي يكتاي پرتو- نش (PNE) در شرايط مختلف، به دست آمده است. ثابت شده است نقطه¬ي (PNE)، در هر شرايطي در بر دارنده¬ي راهبرد بهينه BSها، از ديد كل شبكه است. بر اساس اين تحليل¬ها سه الگوريتم جديد (QLU) و (DQLU) و (HBQLU) براي حل مسأله، پيشنهاد شده¬اند؛ كه به ترتيب مبتني بر يادگيري تقويتي، يادگيري تقويتي عميق و يادگيري تقويتي عميق با استفاده از روش (HB) هستند. شبيه سازي الگوريتم¬هاي پيشنهاد شده، با وجود اخلال گر هوشمند، انجام شده و نتايج آن¬ها از تمام جهات مورد بررسي قرار گرفته است. نتايج شبيه سازي حاكي از همگرايي تمام روش¬هاي پيشنهاد شده و برتري چشمگير آن¬ها، از نظر تابع هدف كل شبكه نسبت به روش تخصيص توان خود¬خواهانه (QLS) ، هستند.
-
تاريخ ورود اطلاعات
1400/03/30
-
عنوان به انگليسي
Designing a reinforcement learning-based algorithm for optimal power allocation in NOMA networks in the presence of a smart jammer
-
تاريخ بهره برداري
12/26/2021 12:00:00 AM
-
دانشجوي وارد كننده اطلاعات
سينا يوسف زاده مرندي
-
چكيده به لاتين
Non-Orthogonal Multiple Access (NOMA) systems will have severe performance reduction when inter-cell interference exists in a network. In such circumstances, if an intelligent jammer is present in the environment, it can easily disconnect weak users or significantly reduce the data sum rate of the entire network. In this thesis, the problem of power allocation of two Base Stations (BS) (in the presence of inter-cell interference) and an intelligent jammer is modeled as a sequential game. In this case, new unselfish utility functions are proposed for BSs. The optimal strategy of the jammer (as a follower) is determined as a function of communicational conditions and BSs strategies. The Nash Equilibrium (NE) points between the BSs and the unique Pareto optimal NE (PNE) point are determined in different conditions in order to solve the whole game. It has been shown that the PNE points contain the optimal BS strategy from the entire points of view of the network in all conditions. Based on the game-theoretical analysis, three new schemes are proposed for anti-jamming NOMA power allocation in a two-cell scenario called a) Q-Learning-based Unselfish (QLU) NOMA power allocation scheme, b) Deep Q-Learning based Unselfish (DQLU) NOMA power allocation scheme, and c) Hot Booting Deep Q-Learning based Unselfish (HBDQLU) NOMA power allocation scheme. The simulations of the proposed algorithms have been performed in the presence of an intelligent jammer, and the results have been studied in all aspects. The results show the convergence of all the proposed methods and their significant superiority in terms of the objective function of the whole network over the Q-Learning-based Selfish (QLS) power allocation method.
-
كليدواژه هاي فارسي
نوما , نظريه بازي ها , يادگيري تقويتي عميق
-
كليدواژه هاي لاتين
NOMA , game theory , deep reinforcement learning
-
لينک به اين مدرک :