شماره ركورد
33936
پديد آورنده
حميدرضا خسرواني
عنوان
طراحي كنترل كننده ربات براي رديابي اشياي متحرك با استفاده از يادگيري تقويتي عميق
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
مهندسي برق گرايش كنترل
سال تحصيل
1401
تاريخ دفاع
1404/06/23
استاد راهنما
دكتر سعيد عبادالهي
استاد مشاور
__
دانشكده
مهندسي برق
چكيده
وسايل پرنده بدون سرنشين ابزارهايي كليدي در صنايع مختلف مانند نظارت، كشاورزي، واكنش به بلايا و بازرسي صنعتي هستند. ادغام هوش مصنوعي و سيستمهاي كنترل خودران عملكرد آنها را بهطور قابلتوجهي بهبود داده است و امكان رديابي اشياء به صورت بي درنگ و برنامه ريزي مسير تطبيقي در محيطهاي پيچيده را فراهم كرده است. اين مطالعه بر بهكارگيري يادگيري تقويتي عميق براي برنامهريزي مسير پهپاد مبتني بر بينايي و رديابي اهداف پويا متمركز است. رويكرد پيشنهادي از تصويرورودي يك دوربين ثابت پهپاد استفاده ميكند كه توسط مدل تشخيص شيء YOLOv5s براي شناسايي اوليه الگو پردازش ميشود. سپس الگوي شناساييشده با استفاده از الگوريتم OSTrack براي رديابي تكشيء دنبال ميشود. جعبه مرزي شيء شناساييشده به يك كنترلكننده مبتني بر يادگيري تقويتي عميق ارسال ميگردد كه سيگنالهاي كنترلي سطح بالا را براي رديابي توليد ميكند. با توجه آنكه اين سيگنال كنترلي توليد شده ميتواند مبتني بر سيگنال خارجي مانند ماهواره نباشد، روش ارايه شده قابليت استفاده در محيط هاي فاقد GPS را دارد. منظور از رديابي در اينجا توليد سيگنال كنترلي از جنس سرعت براي حركت به موقعيتي مي باشد كه هدف حضور دارد. در اين پژوهش دو روش مبتني بر يادگيري تقويتي عميق بررسي شده است: روش اول از الگوريتمهاي خالص يادگيري تقويتي مانند PPO، SAC، DDPG، TRPO و A2C براي توليد سيگنالهاي كنترلي استفاده ميكند. روش دوم، يك روش تركيبي از كنترلكننده PID با يادگيري تقويتي ميباشد، بهطوريكه پارامترهاي كنترل كننده PID به صورت بي درنگ و تطبيقي تنظيم ميشوند. بهمنظور انتقال روان از شبيهسازي به دنياي واقعي، شبكه در يك محيط سفارشي AirSim با پيكربندي شبيهسازي در حلقه پرواز (SITL) مبتني بر ArduPilot دوباره آموزش داده شده است. اين تنظيمات، هماهنگي كامل ميان كنترلكننده پرواز در مرحله آموزش و نمونه واقعي را تضمين ميكند. نتايج شبيه سازي نشان ميدهند كه در روش يادگيري تقويتي خالص، الگوريتم PPO عملكرد بهتري نسبت به ساير الگوريتمها دارد و در روش دوم، كه يك روش تركيبي است الگوريتم SAC به عنوان يك نظارت گر بر كنترل كننده PID بهترين نتيجه را ارائه ميدهد. همچنين، نتايج حاصل از شبيهسازيهاي شبه مونتكارلو، كارايي سيستم پيشنهادي در رديابي اهداف مانوردار را تأييد ميكنند. همچنين از طريق اضافه كردن باد در شبيه ساز ميزان مقاوم بودن هر روش در مقابل اغتشاش به دست آمد.
تاريخ ورود اطلاعات
1404/08/10
عنوان به انگليسي
Designing a Robot Controller for Tracking Moving Objects Using Deep Reinforcement Learning
تاريخ بهره برداري
9/22/2025 12:00:00 AM
دانشجوي وارد كننده اطلاعات
حميدرضا خسرواني
چكيده به لاتين
Unmanned Aerial Vehicles (UAVs) have become essential tools across various industries, offering advanced capabilities in surveillance, disaster response, agriculture, and industrial inspections. The integration of artificial intelligence and autonomous control has further enhanced their functionality, enabling real-time object tracking and adaptive navigation in complex environments. This study focuses on target tracking and autonomous landing on a moving platform using deep reinforcement learning (DRL) in a vision-based UAV navigation system. The proposed approach leverages a static FPV camera input processed by a YOLOv5s object detection model for initial template detection. The detected template is subsequently tracked using the OSTrack single-object tracking algorithm. The bounding box of the detected object is then fed into a DRL-based controller, which generates high- and low-level control signals for tracking. Two DRL-based tracking methods are explored: the first utilizes pure reinforcement learning algorithms, such as PPO, SAC , DDPG , TRPO and A2C, while the second integrates a PID controller with reinforcement learning, allowing for real-time adaptive hyperparameter tuning. To ensure seamless transition from simulation to real-world application, the network is retrained in a custom AirSim environment using the ArduPilot Simulation-in-the-Loop (SITL) configuration. This setup ensures consistency between the training and actual flight controllers. Experimental results demonstrate that PPO outperforms other algorithms in the first method, while SAC exhibits superior performance in the second method. Additionally, pseudo-Monte Carlo simulations validate the proposed system’s effectiveness in tracking maneuvering targets, even under unpredictable movement conditions
كليدواژه هاي فارسي
يادگيري تقويتي عميق , برنامه ريزي مسير , بينايي ماشين
كليدواژه هاي لاتين
Deep reinforcement learning , Path planning , Machine vision
Author
Hamidreza Khosravani
SuperVisor
Dr Saeed Ebadollahi