شماره ركورد
34473
پديد آورنده
نيلوفر تكزارع
عنوان
طراحي مسير بر خط ربات متحرك چرخدار در محيط نامعلوم مبتني بر روش يادگيري تقويتي
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
مهندسي مكانيك
سال تحصيل
1401-1404
تاريخ دفاع
1404/6/31
استاد راهنما
دكتر محرم حبيب نژاد كورايم
استاد مشاور
-
دانشكده
مهندسي مكانيك
چكيده
در اين پژوهش، روشي يكپارچه مبتني بر يادگيري تقويتي عميق براي هدايت رباتهاي چرخدار در محيطهايي ارائه شده كه شامل موانع ثابت با موقعيتهاي تصادفي و نامنظم هستند. در هستهي اين روش، الگوريتم تركيبي PER–MS–DDQN با ادغام ساختار دوگانهي DDQN و حافظهي بازپخش اولويتبنديشده و چندمرحلهاي كردن، طراحي شده تا از بيشارزيابي مقادير Q پيشگيري شود. بهمنظور تقويت كارايي تصميمگيري، تابع پاداش نويني معرفي گرديد كه با بهرهگيري از نتايج مسيريابي الگوريتم A^* اهداف فرعي ايستا را استخراج ميكند و از سطحبندي سلسلهمراتبي بهره ميبرد. همچنين براي كاهش پيچيدگي محاسباتي و افزايش سرعت آموزش، دادههاي توزيعي ويژهاي در برخي وروديها بهكار گرفته شد و براي مجموعهاي ديگر از ويژگيها، وزنهاي اختصاصي تعيين گرديد. ساختار مشاهدهي چندلايه، گسستهسازي زاويهاي محيط و تلفيق وروديهاي ليدار، مدلي غني و دقيق براي درك موقعيت و موانع فراهم آورد. ارزيابيهاي تجربي در دو مرحله—ابتدا در شبيهسازي دوبُعدي و سپس در محيط سهبعدي Gazebo با ROS 2—روي ربات Berger Turtlebot انجام شد. نتايج نشان دادند كه پس از تقريباً 3300 اپيزود ميانگين پاداش به 345 واحد (23٪ بيشتر نسبت به 280 واحد مرجع) رسيد؛ در 500 اپيزود پاياني ميانگين پاداش 300٫8 واحد ثبت گرديد (نحوۀ بهبودي تا 12 برابر نسبت به DDQN پايه)، نوسانات پاداش تا 40٪ كاهش يافت و نرخ موفقيت در Gazebo به 99٪ افزايش پيدا كرد. اين دستاوردها گوياي بهبود چشمگير همگرايي، پايداري و تعميمپذيري PER–MS–DDQN در محيطهاي پويا بوده و افقهاي نويني براي كاربردهاي عملي در ناوبري رباتيك و سامانههاي خودران ميگشايند.
تاريخ ورود اطلاعات
1404/11/11
عنوان به انگليسي
Online path-planning of a wheeled mobile robot in an unknown environment based on reinforcement learning method
تاريخ بهره برداري
1/21/2026 12:00:00 AM
دانشجوي وارد كننده اطلاعات
نيلوفر تك زارع
چكيده به لاتين
This research proposes an integrated approach in the framework of deep reinforcement learning for real-time navigation of wheeled mobile robots in unknown spaces. At the core of this method, the PER–MS–DDQN algorithm is designed by integrating the dual structure of DDQN and prioritized replay memory and multi-stage scaling to prevent overestimation of Q values. In order to enhance the decision-making efficiency, a new reward function is introduced that extracts static sub-goals by using the A-star Also, to reduce the computational complexity and increase the training speed, special distribution data was used in some inputs and specific weights were determined for another set of features.The multilayer observation structure, angular discretization of the environment, and integration of lidar inputs provide a rich and accurate model for situation and obstacle perception. Experimental evaluations were conducted in two stages—first in a 2D simulation and then in a 3D Gazebo environment with ROS 2—on the Berger Turtlebot. The results showed that after approximately 3,300 episodes, the average reward reached 345 units (23% higher than the reference 280 units); in the final 500 episodes, the average reward was 300.8 units (an improvement of up to 12 times compared to the baseline DDQN), the reward fluctuations were reduced by 40%, and the success rate in Gazebo increased to 99%. These achievements demonstrate the significant improvement in the convergence, stability, and generalizability of PER–MS–DDQN in dynamic environments and open new horizons for practical applications in robotic navigation and autonomous systems
كليدواژه هاي فارسي
يادگيري تقويتي – تابع پاداش – ناوبري – ربات متحرك- حالت
كليدواژه هاي لاتين
Reinforcement learning, Reward function, Navigation, Mobile robot, States
Author
Niloufar Takzare
SuperVisor
Dr. Moharam Habibnejad Korayem