علي راهداريان

عنوان

كنترل بهينه سيستم‌هاي چند عامله در حضور اغتشاش با استفاده از يادگيري تقويتي

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

كنترل

سال تحصيل

1397

تاريخ دفاع

1399/4/11

استاد راهنما

دكتر سعيد شمقدري

دانشكده

برق

چكيده

در اين پژوهش يك روش كنترل گروهي مبتني بر يادگيري تقويتي براي حل مسئله همگام سازي براي سيستم‌هاي چند‌عامله پيرو-رهبر تحت اغتشاش ارائه شده است. يكي از كاستي‌ها‌ي روش‌ها‌يي كه براي كنترل سيستم‌ها‌ي چند عامله وجود دارد آن است كه اثر مخرب اغتشاش در آن‌ها‌ ناديده گرفته مي‌شود و سرعت همگرايي عامل‌ها‌ قابل تعيين و تضمين نيست. در اين پژوهش الگوريتمي ارائه شده است كه هر دو كاستي را رفع ميكند . بدين منظور جهت تضمين همگرايي عامل‌ها به رهبر گروه با سرعت همگرايي مد نظر، يك روش كنترلي مبتني بر مشاهدهگر طراحي شدهاست تا از انتشار اثر اغتشاش در شبكه عامل‌ها جلوگيري بهعمل آورد. در اين پژوهش ، ابتدا مسئله با فرض در دسترس بودن ديناميك، به صورت مسئله كنترل بهينه فرموله مي‌شود. سپس با ارائه يك الگوريتم يادگيري تقويتي انتگرالي ، مسئله بصورت آنلاين و تنها با داده‌هاي سنسوري و بدون آنكه به دانستن معادله ديناميكي عامل‌ها نيازي باشد، حل ‌مي‌شود. در انتها به كمك اثبات رياضي و نيز نتايج شبيه سازي نشان داده ميشود كه اين روش توانايي هم گام سازي عامل‌ها‌ با سرعت مدنظر در شرايط حضور اغتشاش را دارد.

تاريخ ورود اطلاعات

1399/07/29

عنوان به انگليسي

optimal control pf multi agent systems in the presence of disturbances using reinforcement learning

تاريخ بهره برداري

7/2/2021 12:00:00 AM

دانشجوي وارد كننده اطلاعات

علي راهداريان

Name: علي راهداريان
Author: علي راهداريان

چكيده به لاتين

In this research a new RL based control protocol is presented fo the synchronization of multi agent systems. On of the drawbacks of current control protocols is that the effect of disturbance is neglected in the design and also the rate of convergence is not specified and cannot be determined. The proposed method solves both problems. Using this method, the adverse effect of disturbance cannot propagate across the network of agents. In this method, first it is assumed that the systems dynamics is available and the formulations are derived after that a new RL based method for solving this problem without requiring knowledge of the agents' dynamics is presented. Finally, it is shown that both methods converge to the same solution.Also in order to validate the effectiveness of the proposed method, some experimentetal results are presented.

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=22631&Field=0&DTC=6