نيلوفر تكزارع

عنوان

طراحي مسير بر خط ربات متحرك چرخ‌دار در محيط نامعلوم مبتني بر روش يادگيري تقويتي

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

مهندسي مكانيك

سال تحصيل

1401-1404

تاريخ دفاع

1404/6/31

استاد راهنما

دكتر محرم حبيب نژاد كورايم

استاد مشاور

دانشكده

مهندسي مكانيك

چكيده

در اين پژوهش، روشي يكپارچه مبتني بر يادگيري تقويتي عميق براي هدايت ربات‌هاي چرخ‌دار در محيط‌هايي ارائه شده كه شامل موانع ثابت با موقعيت‌هاي تصادفي و نامنظم هستند. در هسته‌ي اين روش، الگوريتم تركيبي PER–MS–DDQN با ادغام ساختار دوگانه‌ي DDQN و حافظه‌ي بازپخش اولويت‌بندي‌شده و چندمرحله‌اي كردن‌، طراحي شده تا از بيش‌ارزيابي مقادير Q پيشگيري شود. به‌منظور تقويت كارايي تصميم‌گيري، تابع پاداش نويني معرفي گرديد كه با بهره‌گيري از نتايج مسيريابي الگوريتم A^* اهداف فرعي ايستا را استخراج مي‌كند و از سطح‌بندي سلسله‌مراتبي بهره مي‌برد. همچنين براي كاهش پيچيدگي محاسباتي و افزايش سرعت آموزش، داده‌هاي توزيعي ويژه‌اي در برخي ورودي‌ها به‌كار گرفته شد و براي مجموعه‌اي ديگر از ويژگي‌ها، وزن‌هاي اختصاصي تعيين گرديد. ساختار مشاهده‌ي چندلايه، گسسته‌سازي زاويه‌اي محيط و تلفيق ورودي‌هاي ليدار، مدلي غني و دقيق براي درك موقعيت و موانع فراهم آورد. ارزيابي‌هاي تجربي در دو مرحله—ابتدا در شبيه‌سازي دوبُعدي و سپس در محيط سه‌بعدي Gazebo با ROS 2—روي ربات Berger Turtlebot انجام شد. نتايج نشان دادند كه پس از تقريباً 3300 اپيزود ميانگين پاداش به 345 واحد (23٪ بيشتر نسبت به 280 واحد مرجع) رسيد؛ در 500 اپيزود پاياني ميانگين پاداش 300٫8 واحد ثبت گرديد (نحوۀ بهبودي تا 12 برابر نسبت به DDQN پايه)، نوسانات پاداش تا 40٪ كاهش يافت و نرخ موفقيت در Gazebo به 99٪ افزايش پيدا كرد. اين دستاوردها گوياي بهبود چشمگير همگرايي، پايداري و تعميم‌پذيري PER–MS–DDQN در محيط‌هاي پويا بوده و افق‌هاي نويني براي كاربردهاي عملي در ناوبري رباتيك و سامانه‌هاي خودران مي‌گشايند.

تاريخ ورود اطلاعات

1404/11/11

عنوان به انگليسي

Online path-planning of a wheeled mobile robot in an unknown environment based on reinforcement learning method

تاريخ بهره برداري

1/21/2026 12:00:00 AM

دانشجوي وارد كننده اطلاعات

نيلوفر تك زارع

Name: نيلوفر تك زارع
Author: نيلوفر تكزارع

چكيده به لاتين

This research proposes an integrated approach in the framework of deep reinforcement learning for real-time navigation of wheeled mobile robots in unknown spaces. At the core of this method, the PER–MS–DDQN algorithm is designed by integrating the dual structure of DDQN an‎d prioritized replay memory an‎d multi-stage scaling to prevent overestimation of Q values. In order to enhance the decision-making efficiency, a new reward function is introduced that extracts static sub-goals by using the A-star Also, to reduce the computational complexity an‎d increase the training speed, special distribution data was used in some inputs an‎d specific weights were determined for another set of features.The multilayer observation structure, angular discretization of the environment, an‎d integration of lidar inputs provide a rich an‎d accurate model for situation an‎d obstacle perception. Experimental eva‎luations were conducted in two stages—first in a 2D simulation an‎d then in a 3D Gazebo environment with ROS 2—on the Berger Turtlebot. The results showed that after approximately 3,300 episodes, the average reward reached 345 units (23% higher than the reference 280 units); in the final 500 episodes, the average reward was 300.8 units (an improvement of up to 12 times compared to the baseline DDQN), the reward fluctuations were reduced by 40%, an‎d the success rate in Gazebo increased to 99%. These achievements demonstrate the significant improvement in the convergence, stability, an‎d generalizability of PER–MS–DDQN in dynamic environments an‎d open new horizons for practical applications in robotic navigation an‎d autonomous systems

كليدواژه هاي فارسي

يادگيري تقويتي – تابع پاداش – ناوبري – ربات متحرك- حالت

كليدواژه هاي لاتين

Reinforcement learning, Reward function, Navigation, Mobile robot, States

Author

Niloufar Takzare

SuperVisor

Dr. Moharam Habibnejad Korayem

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=34473&Field=0&DTC=6