-
شماره ركورد
31807
-
پديد آورنده
مجتبي نوروزي
-
عنوان
كنترل كننده مبتني بر يادگيري تقويتي براي دنبال كردن مسير يك خودرو خودران
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
مهندسي برق
-
سال تحصيل
1400
-
تاريخ دفاع
1403/06/24
-
استاد راهنما
جواد پشتان
-
استاد مشاور
---
-
دانشكده
برق
-
چكيده
كنترلكنندههاي دنبالكن مسير نقش حياتي در عملكرد و ايمني خودروهاي خودران دارند. يكي از معروفترين و پركاربردترين اين كنترلكنندهها، كنترلكننده تناسبي-مشتقگير-انتگرالي است كه با ضرايب ثابت ميتواند عملكرد قابل قبولي را ارائه دهد. يافتن مقدار مناسب ضرايب اين كنترل كننده توسط دو روش بهينه سازي و زيگلز-نيكولز بررسي شده است. با اين حال، كنترلكنندههاي مبتني بر يادگيري تقويتي به دليل توانايي تعامل با محيط، پتانسيل بيشتري براي ارائه نتايج با تطبيق پذيري و صحت بالاتر نسبت به كنترلكنندههاي تناسبي-مشتقگير-انتگرالي دارند. به دليل پيچيدگي مسئله، از الگوريتم بهينه سازي خطمشي نزديك مبدا كه به طور گسترده در زمينه خودروهاي خودران كاربرد دارد، براي پيادهسازي كنترلكننده استفاده شده است. دو چالش بزرگ در كنترل كننده هاي مبتني بر يادگيري تقويتي وجود دارد. چالش اول تنظيم صحيح پارامترهاي موجود در الگوريتم و چالش دوم اين كنترل كنندهها نوسان شديد سيگنال كنترلي توليد شده است. از اين رو، با ارائه تركيب نوين دو روش كه يكي شامل تغيير در شبكه عصبي و ديگري حاصل دو تغيير در تابع هزينه الگوريتم بهينه سازي خطمشي نزديك مبدا را شامل ميشود، قادر به مقاوم سازي پارامترها و كم كردن نوسانات سيگنال كنترلي هستيم. در اين تحقيق، به بررسي و مقايسه عملكرد كنترلكننده تناسبي-مشتقگير-انتگرالي و كنترلكننده مبتني بر يادگيري تقويتي پرداختهايم. با توجه به سيگنال كنترلي و صحت عملكرد كنترل كننده، نتايج اوليه نشان داد كه كنترلكننده يادگيري تقويتي نتايج ضعيفتري نسبت به كنترلكننده تناسبي-مشتقگير-انتگرالي با ضرايب و سرعت مرجع ثابت ارائه ميدهد. با اين وجود، كنترل كننده تناسبي-مشتقگير-انتگرالي با ضرايب و سرعت ثابت، قادر به دنبال كردن مسير با صحت بسيار بالا نميباشد. همچنين، ثابت بودن سرعت مرجع، ممكن است براي تمامي شرايط رانندگي مناسب نباشد. بنابراين، ما رويكردي تركيبي ارائه داديم كه در آن كنترلكننده تناسبي-مشتقگير-انتگرالي با استفاده از يادگيري تقويتي بهينهسازي ميشود تا ضرايب آن و سرعت مرجع به طور پويا تنظيم شوند. در نتايج مرحله بعد، در شرايط جادهاي چالشي با اصطكاك كم، كنترلكننده تناسبي-مشتقگير-انتگرالي با ضرايب ثابت نتوانست كارايي مناسبي داشته باشد، لذا از يادگيري تقويتي براي بهبود عملكرد استفاده كرديم. پياده سازي ها نشان داد كه با تركيب كنترلكننده تناسبي-مشتقگير-انتگرالي و يادگيري تقويتي، به نتايج بهتري در مقايسه با استفاده مجزا از هر يك دست يافتيم. اين تركيب نه تنها بهبود قابل توجهي در شرايط عادي جادهاي نشان داد، بلكه توانست در شرايط چالشي نيز عملكرد مناسبي ارائه دهد. اين نتايج، پتانسيل بالاي رويكرد تركيبي در بهينهسازي سيستمهاي كنترل خودروهاي خودران را برجسته ميكند.
-
تاريخ ورود اطلاعات
1403/10/03
-
عنوان به انگليسي
Reinforcement Learning-Based Path Tracking Controller for An Autonomous Vehicle
-
تاريخ بهره برداري
9/14/2025 12:00:00 AM
-
دانشجوي وارد كننده اطلاعات
مجتبي نوروزي
-
چكيده به لاتين
Path-following controllers play a crucial role in the performance and safety of autonomous vehicles. One of the most well-known and widely used of these controllers is the PID controller, which can deliver acceptable performance with fixed gains. The appropriate values of the controller's coefficients have been examined using two methods: optimization and Ziegler-Nichols. Reinforcement learning-based controllers, however, have greater potential for delivering adaptive and accurate results thanks to their ability to interact with the environment. The PPO algorithm, which is extensively used in the field of autonomous vehicles, has been employed to implement the controller given the complexity of the problem. There are two major challenges with reinforcement learning-based controllers. The first challenge is the proper tuning of the parameters within the algorithms, and the second challenge is the high fluctuation of the generated control signal. To address these issues, we propose a novel combination of two methods: one involves changes in the actor’s neural network structure and the other incorporates two modifications in the PPO algorithm's loss function, resulting in parameter robustness and reduction in control signal fluctuations. In this study, we have evaluated and compared the performance of the PID controller and the reinforcement learning-based controller. Based on the control signal and accuracy of the controllers, initial results showed that the reinforcement learning-based controller delivered poorer results compared to the PID controller with fixed gains and reference speed. On the contrary, the PID controller with fixed gains and speed cannot achieve a highly acceptable path-following accuracy. Moreover, the fixed reference speed may not be suitable for all driving conditions, and therefore, we presented a hybrid approach in which the PID controller is optimized using reinforcement learning for a dynamic and interactive adjustment to its gains and reference speed. In subsequent results, under extremely challenging low-friction road conditions, the fixed-gain PID controller did not perform successfully. However, combining the PID controller with reinforcement learning generated superior results compared to the use of each independently. Not only does this combination show significant improvements in normal road conditions, but also provides suitable performance in challenging road conditions. These results illustrate the potential of hybrid approaches in optimizing control systems for autonomous vehicles.
-
كليدواژه هاي فارسي
خودرو خودران , رديابي مسير , يادگيري تقويتي , هينه سازي خطمشي نزديك مبدا , كنترلكننده تناسبي-مشتقگير-انتگرالي
-
كليدواژه هاي لاتين
Autonomous vehicle , Path tracking , Reinforcement learning , PPO , PID
-
Author
mojtaba norouzi
-
SuperVisor
javad poshtan
-
لينک به اين مدرک :