شماره ركورد
7080
عنوان
بررسي روش هاي يادگيري تقويتي در كنترل غيرخطي
سال تحصيل
1398
استاد راهنما
دكتر سعيد شمقدري
چکيده
يادگيري تقويتي به بيان سـاده يادگيري بوسـ يله تعامل با محيط بمنظور رسـ يدن به هدفي مشـخص ميباشـد. از
آنجائي كه مشـابه يادگيري تقويتي، كنترل بهينه نيز به دنبال يافتن سـ ياسـت بهينه ايسـت كه منجر به كمينه
كردن يك تابع معيار، كه نشانگر رفتار س يستم در در بلند مدت مي باشد، ميشود، از يادگيري تقويتي در حل
مسـائل كنترل بهينه اسـتفاده شـده اسـت. همانند برنامه ريزي پويا ،اسـاس يادگيري تقويتي در حل مسـائل
كنترل بهينه بر حل معـادله بهينگ ي بلمن ميباشـــد . اما، بر خلاف برنامه ريزي پويـ ا، در يـ ادگيري تقويتي، حل
كردن معادله بهينگي بلمن به ندرت بطور دقيق و مســتقيم اســتفاده مي شــود. همچنين، از آنجائي كه بر
خلاف روش برنـامـه ريزي پويـ ا كـه يـ ك روش برون خط مي بـاشـــد، روشـــهـاي يـ ادگيري تقويتي از تكنيكهـاي
برخط براي حل معادله بهينگي بلمن بهره مي برند، و ميتوان از اين روشـها براي حل مسـائل كنترل بهينه به
صـورت برخط و براي سـ يسـتمهاي داراي عدم قطعيت بهره برد. در اين سـمينار، ابتدا به مقدمه اي در مورد
يـ ادگيري مـاشـــ ين، يـ ادگيري تقويتي و ارتبـاط آن بـا كنترل بهينـه پرداختـه مي شـــود. در ادامـه نمونـههـايي از
مسـائل قابل حل با روش يادگيري ماشـ ين در سـ يسـتم هاي كنترل غيرخطي، آورده ميشـود. در ادامه دسـته
بند ي به دو دسـته گسـسـته و پيوسـته صـورت مي گيردو الگوريتم هاي هر دسـته مورد بررسـ ي قرار مي گيرند .
در بخش آخر به جمع بند ي روش ها و الگوريتم ها و همچنين ارائه پيشنهادها در خصوص كارهاي ممكن در
آينده پرداخته ميشود.
واژه هاي كليدي: يادگيري تقويتي، كنترل غيرخطي، كنترل بهينه، يادگيري ماشين
نام دانشجو
محمدامين مرادي
تاريخ ارائه
11/20/2019 12:00:00 AM
متن كامل
67411
پديد آورنده
محمدامين مرادي
تاريخ ورود اطلاعات
1398/12/14
عنوان به انگليسي
Review of Reinforcement Learning Methods in Nonlinear Control
كليدواژه هاي فارسي
يادگيري تقويتي , كنترل غيرخطي
كليدواژه هاي لاتين
reinforcement learning , nonlinear control