-
شماره ركورد
22631
-
پديد آورنده
علي راهداريان
-
عنوان
كنترل بهينه سيستمهاي چند عامله در حضور اغتشاش با استفاده از يادگيري تقويتي
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
كنترل
-
سال تحصيل
1397
-
تاريخ دفاع
1399/4/11
-
استاد راهنما
دكتر سعيد شمقدري
-
دانشكده
برق
-
چكيده
در اين پژوهش يك روش كنترل گروهي مبتني بر يادگيري تقويتي براي حل مسئله همگام سازي براي سيستمهاي چندعامله پيرو-رهبر تحت اغتشاش ارائه شده است. يكي از كاستيهاي روشهايي كه براي كنترل سيستمهاي چند عامله وجود دارد آن است كه اثر مخرب اغتشاش در آنها ناديده گرفته ميشود و سرعت همگرايي عاملها قابل تعيين و تضمين نيست. در اين پژوهش الگوريتمي ارائه شده است كه هر دو كاستي را رفع ميكند . بدين منظور جهت تضمين همگرايي عاملها به رهبر گروه با سرعت همگرايي مد نظر، يك روش كنترلي مبتني بر مشاهدهگر طراحي شدهاست تا از انتشار اثر اغتشاش در شبكه عاملها جلوگيري بهعمل آورد. در اين پژوهش ، ابتدا مسئله با فرض در دسترس بودن ديناميك، به صورت مسئله كنترل بهينه فرموله ميشود. سپس با ارائه يك الگوريتم يادگيري تقويتي انتگرالي ، مسئله بصورت آنلاين و تنها با دادههاي سنسوري و بدون آنكه به دانستن معادله ديناميكي عاملها نيازي باشد، حل ميشود. در انتها به كمك اثبات رياضي و نيز نتايج شبيه سازي نشان داده ميشود كه اين روش توانايي هم گام سازي عاملها با سرعت مدنظر در شرايط حضور اغتشاش را دارد.
-
تاريخ ورود اطلاعات
1399/07/29
-
عنوان به انگليسي
optimal control pf multi agent systems in the presence of disturbances using reinforcement learning
-
تاريخ بهره برداري
7/2/2021 12:00:00 AM
-
دانشجوي وارد كننده اطلاعات
علي راهداريان
-
چكيده به لاتين
In this research a new RL based control protocol is presented fo the synchronization of multi agent systems. On of the drawbacks of current control protocols is that the effect of disturbance is neglected in the design and also the rate of convergence is not specified and cannot be determined. The proposed method solves both problems. Using this method, the adverse effect of disturbance cannot propagate across the network of agents. In this method, first it is assumed that the systems dynamics is available and the formulations are derived after that a new RL based method for solving this problem without requiring knowledge of the agents' dynamics is presented. Finally, it is shown that both methods converge to the same solution.Also in order to validate the effectiveness of the proposed method, some experimentetal results are presented.
-
لينک به اين مدرک :