عليرضا زارع خورميزي

عنوان

كنترل‌ تعادل‌ پاندول‌ معكوس‌ با استفاده‌ از روش‌ هاي‌ يادگيري‌ تقويتي‌ عميق‌

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

مهندسي برق كنترل

سال تحصيل

1397

تاريخ دفاع

1401/08/29

استاد راهنما

دكتر جواد پشتان

دانشكده

مهندسي برق

چكيده

مسئله كنترل تعادل پاندول معكوس كه يكي از مسائل رايج كنترل كلاسيك است و در حوزه هاي بسياري از جمله خودروهاي خودران گرفته تا روباتيك كاربرد دارد. اين تحقيق به استفاده از الگوريتم هاي يادگيري تقويتي عميق براي كنترل تعادل پاندول معكوس و همچنين مقايسه عملكرد اين الگوريتم ها ميپردازد. اين پايان نامه بعد از معرفي الگوريتم هاي يادگيري تقويتي عميق انتخاب شده مانند شبكه هاي عميق Q(DQN)، شبكه هاي عميق Q دوگانه(DDQN)، بازيگر-منتقد پيشرفته آسنكرون(A3C) و بازيگر-منتقد مطلوب سنكرون(A2C)، محيط شبيه سازي OpenAI Gym را براي پياده سازي روش هاي يادگيري تقويت عميق به منظور متعادل سازي پاندول معكوس برگزيده است. در پايان نيز، عملكرد همه اين روشها به طور نسبي در مسئله كنترل تعادل پاندول معكوس بوسيله جداول و نمودارها ارائه شده است.

تاريخ ورود اطلاعات

1401/06/29

عنوان به انگليسي

Balance control of inverted pendulum using deep reinforcement learning methods

تاريخ بهره برداري

11/20/2023 12:00:00 AM

دانشجوي وارد كننده اطلاعات

عليرضا زارع خورميزي

Name: عليرضا زارع خورميزي
Author: عليرضا زارع خورميزي

چكيده به لاتين

The inverse pendulum balance control problem, which is one of the common classical control problems, is used in many fields, including self-driving cars and robotics. This research deals with the use of deep reinforcement learning algorithms to control the balance of the inverted pendulum and also compare the performance of these algorithms. This thesis, after introducing selected deep reinforcement learning algorithms such as deep Q networks (DQN),dual deep Q networks (DDQN), asynchronous advanced actor-critic (A3C) and synchronous actor-critic (A2C), The OpenAI Gym simulation environment has chosen to implement deep reinforcement learning methods to balance the inverted pendulum. In the end, the performance of all these methods is relatively presented in the inverse pendulum balance control problem by tables and graphs.

كليدواژه هاي فارسي

سيستم پاندول معكوس، يادگيري تقويتي، يادگيري تقويتي عميق، شبكه هاي عميق Q، شبكه هاي عميق Q دوگانه، بازيگر-منتقد پيشرفته آسنكرون، بازيگر-منتقد مطلوب سنكرون

Author

Alireza Zare Khormizi

SuperVisor

Dr.Javad Poshtan

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=27636&Field=0&DTC=6