شماره ركورد
27636
پديد آورنده
عليرضا زارع خورميزي
عنوان
كنترل تعادل پاندول معكوس با استفاده از روش هاي يادگيري تقويتي عميق
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
مهندسي برق كنترل
سال تحصيل
1397
تاريخ دفاع
1401/08/29
استاد راهنما
دكتر جواد پشتان
دانشكده
مهندسي برق
چكيده
مسئله كنترل تعادل پاندول معكوس كه يكي از مسائل رايج كنترل كلاسيك است و در حوزه هاي بسياري از جمله خودروهاي خودران گرفته تا روباتيك كاربرد دارد. اين تحقيق به استفاده از الگوريتم هاي يادگيري تقويتي عميق براي كنترل تعادل پاندول معكوس و همچنين مقايسه عملكرد اين الگوريتم ها ميپردازد. اين پايان نامه بعد از معرفي الگوريتم هاي يادگيري تقويتي عميق انتخاب شده مانند شبكه هاي عميق Q(DQN)، شبكه هاي عميق Q دوگانه(DDQN)، بازيگر-منتقد پيشرفته آسنكرون(A3C) و بازيگر-منتقد مطلوب سنكرون(A2C)، محيط شبيه سازي OpenAI Gym را براي پياده سازي روش هاي يادگيري تقويت عميق به منظور متعادل سازي پاندول معكوس برگزيده است. در پايان نيز، عملكرد همه اين روشها به طور نسبي در مسئله كنترل تعادل پاندول معكوس بوسيله جداول و نمودارها ارائه شده است.
تاريخ ورود اطلاعات
1401/06/29
عنوان به انگليسي
Balance control of inverted pendulum using deep reinforcement learning methods
تاريخ بهره برداري
11/20/2023 12:00:00 AM
دانشجوي وارد كننده اطلاعات
عليرضا زارع خورميزي
چكيده به لاتين
The inverse pendulum balance control problem, which is one of the common classical control problems, is used in many fields, including self-driving cars and robotics. This research deals with the use of deep reinforcement learning algorithms to control the balance of the inverted pendulum and also compare the performance of these algorithms. This thesis, after introducing selected deep reinforcement learning algorithms such as deep Q networks (DQN),dual deep Q networks (DDQN), asynchronous advanced actor-critic (A3C) and synchronous actor-critic (A2C), The OpenAI Gym simulation environment has chosen to implement deep reinforcement learning methods to balance the inverted pendulum. In the end, the performance of all these methods is relatively presented in the inverse pendulum balance control problem by tables and graphs.
كليدواژه هاي فارسي
سيستم پاندول معكوس، يادگيري تقويتي، يادگيري تقويتي عميق، شبكه هاي عميق Q، شبكه هاي عميق Q دوگانه، بازيگر-منتقد پيشرفته آسنكرون، بازيگر-منتقد مطلوب سنكرون
Author
Alireza Zare Khormizi
SuperVisor
Dr.Javad Poshtan