مجتبي نوروزي

عنوان

كنترل كننده مبتني بر يادگيري تقويتي براي دنبال كردن مسير يك خودرو خودران

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

مهندسي برق

سال تحصيل

1400

تاريخ دفاع

1403/06/24

استاد راهنما

جواد پشتان

استاد مشاور

---

دانشكده

برق

چكيده

كنترل‌كننده‌هاي دنبال‌كن مسير نقش حياتي در عملكرد و ايمني خودروهاي خودران دارند. يكي از معروف‌ترين و پركاربردترين اين كنترل‌كننده‌ها، كنترل‌كننده تناسبي-مشتق‌گير-انتگرالي است كه با ضرايب ثابت مي‌تواند عملكرد قابل قبولي را ارائه دهد. يافتن مقدار مناسب ضرايب اين كنترل كننده توسط دو روش بهينه سازي و زيگلز-نيكولز بررسي شده است. با اين حال، كنترل‌كننده‌هاي مبتني بر يادگيري تقويتي به دليل توانايي تعامل با محيط، پتانسيل بيشتري براي ارائه نتايج با تطبيق پذيري و صحت بالاتر نسبت به كنترل‌كننده‌هاي تناسبي-مشتق‌گير-انتگرالي دارند. به دليل پيچيدگي مسئله، از الگوريتم بهينه سازي خط‌مشي نزديك مبدا كه به طور گسترده در زمينه خودروهاي خودران كاربرد دارد، براي پياده‌سازي كنترل‌كننده استفاده شده است. دو چالش بزرگ در كنترل كننده هاي مبتني بر يادگيري تقويتي وجود دارد. چالش اول تنظيم صحيح پارامتر‌هاي موجود در الگوريتم‌ و چالش دوم اين كنترل كننده‌ها نوسان شديد سيگنال كنترلي توليد شده است. از اين رو، با ارائه تركيب نوين دو روش كه يكي شامل تغيير در شبكه عصبي و ديگري حاصل دو تغيير در تابع هزينه الگوريتم بهينه سازي خط‌مشي نزديك مبدا را شامل مي‌شود، قادر به مقاوم سازي پارامتر‌ها و كم كردن نوسانات سيگنال كنترلي هستيم. در اين تحقيق، به بررسي و مقايسه عملكرد كنترل‌كننده تناسبي-مشتق‌گير-انتگرالي و كنترل‌كننده مبتني بر يادگيري تقويتي پرداخته‌ايم. با توجه به سيگنال كنترلي و صحت عملكرد كنترل كننده، نتايج اوليه نشان داد كه كنترل‌كننده يادگيري تقويتي نتايج ضعيف‌تري نسبت به كنترل‌كننده تناسبي-مشتق‌گير-انتگرالي با ضرايب و سرعت مرجع ثابت ارائه مي‌دهد. با اين وجود، كنترل كننده تناسبي-مشتق‌گير-انتگرالي با ضرايب و سرعت ثابت، قادر به دنبال كردن مسير با صحت بسيار بالا نمي‌باشد. همچنين، ثابت بودن سرعت مرجع، ممكن است براي تمامي شرايط رانندگي مناسب نباشد. بنابراين، ما رويكردي تركيبي ارائه داديم كه در آن كنترل‌كننده تناسبي-مشتق‌گير-انتگرالي با استفاده از يادگيري تقويتي بهينه‌سازي مي‌شود تا ضرايب آن و سرعت مرجع به طور پويا تنظيم شوند. در نتايج مرحله بعد، در شرايط جاده‌اي چالشي با اصطكاك كم، كنترل‌كننده تناسبي-مشتق‌گير-انتگرالي با ضرايب ثابت نتوانست كارايي مناسبي داشته باشد، لذا از يادگيري تقويتي براي بهبود عملكرد استفاده كرديم. پياده سازي ها نشان داد كه با تركيب كنترل‌كننده تناسبي-مشتق‌گير-انتگرالي و يادگيري تقويتي، به نتايج بهتري در مقايسه با استفاده مجزا از هر يك دست يافتيم. اين تركيب نه تنها بهبود قابل ‌توجهي در شرايط عادي جاده‌اي نشان داد، بلكه توانست در شرايط چالشي نيز عملكرد مناسبي ارائه دهد. اين نتايج، پتانسيل بالاي رويكرد تركيبي در بهينه‌سازي سيستم‌هاي كنترل خودروهاي خودران را برجسته مي‌كند.

تاريخ ورود اطلاعات

1403/10/03

عنوان به انگليسي

Reinforcement Learning-Based Path Tracking Controller for An Autonomous Vehicle

تاريخ بهره برداري

9/14/2025 12:00:00 AM

دانشجوي وارد كننده اطلاعات

مجتبي نوروزي

Name: مجتبي نوروزي
Author: مجتبي نوروزي

چكيده به لاتين

Path-following controllers play a crucial role in the performance and safety of autonomous vehicles. One of the most well-known and widely used of these controllers is the PID controller, which can deliver acceptable performance with fixed gains. The appropriate values of the controller's coefficients have been examined using two methods: optimization and Ziegler-Nichols. Reinforcement learning-based controllers, however, have greater potential for delivering adaptive and accurate results thanks to their ability to interact with the environment. The PPO algorithm, which is extensively used in the field of autonomous vehicles, has been employed to implement the controller given the complexity of the problem. There are two major challenges with reinforcement learning-based controllers. The first challenge is the proper tuning of the parameters within the algorithms, and the second challenge is the high fluctuation of the generated control signal. To address these issues, we propose a novel combination of two methods: one involves changes in the actor’s neural network structure and the other incorporates two modifications in the PPO algorithm's loss function, resulting in parameter robustness and reduction in control signal fluctuations. In this study, we have eva‎luated and compared the performance of the PID controller and the reinforcement learning-based controller. Based on the control signal and accuracy of the controllers, initial results showed that the reinforcement learning-based controller delivered poorer results compared to the PID controller with fixed gains and reference speed. On the contrary, the PID controller with fixed gains and speed cannot achieve a highly acceptable path-following accuracy. Moreover, the fixed reference speed may not be suitable for all driving conditions, and therefore, we presented a hybrid approach in which the PID controller is optimized using reinforcement learning for a dynamic and interactive adjustment to its gains and reference speed. In subsequent results, under extremely challenging low-friction road conditions, the fixed-gain PID controller did not perform successfully. However, combining the PID controller with reinforcement learning generated superior results compared to the use of each independently. Not only does this combination show significant improvements in normal road conditions, but also provides suitable performance in challenging road conditions. These results illustrate the potential of hybrid approaches in optimizing control systems for autonomous vehicles.

كليدواژه هاي فارسي

خودرو خودران , رديابي مسير , يادگيري تقويتي , هينه سازي خط‌مشي نزديك مبدا , كنترل‌كننده تناسبي-مشتق‌گير-انتگرالي

كليدواژه هاي لاتين

Autonomous vehicle , Path tracking , Reinforcement learning , PPO , PID

Author

mojtaba norouzi

SuperVisor

javad poshtan

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=31807&Field=0&DTC=6