حميدرضا خسرواني

عنوان

طراحي كنترل كننده ربات براي رديابي اشياي متحرك با استفاده از يادگيري تقويتي عميق

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

مهندسي برق گرايش كنترل

سال تحصيل

1401

تاريخ دفاع

1404/06/23

استاد راهنما

دكتر سعيد عبادالهي

استاد مشاور

دانشكده

مهندسي برق

چكيده

وسايل پرنده بدون سرنشين ابزارهايي كليدي در صنايع مختلف مانند نظارت، كشاورزي، واكنش به بلايا و بازرسي صنعتي هستند. ادغام هوش مصنوعي و سيستم‌هاي كنترل خودران عملكرد آن‌ها را به‌طور قابل‌توجهي بهبود داده است و امكان رديابي اشياء به صورت بي درنگ و برنامه ريزي مسير تطبيقي در محيط‌هاي پيچيده را فراهم كرده است. اين مطالعه بر به‌كارگيري يادگيري تقويتي عميق براي برنامه‌ريزي مسير پهپاد مبتني بر بينايي و رديابي اهداف پويا متمركز است. رويكرد پيشنهادي از تصويرورودي يك دوربين ثابت پهپاد استفاده مي‌كند كه توسط مدل تشخيص شيء YOLOv5s براي شناسايي اوليه الگو پردازش مي‌شود. سپس الگوي شناسايي‌شده با استفاده از الگوريتم OSTrack براي رديابي تك‌شيء دنبال مي‌شود. جعبه مرزي شيء شناسايي‌شده به يك كنترل‌كننده مبتني بر يادگيري تقويتي عميق ارسال مي‌گردد كه سيگنال‌هاي كنترلي سطح بالا را براي رديابي توليد مي‌كند. با توجه آنكه اين سيگنال كنترلي توليد شده مي‌تواند مبتني بر سيگنال خارجي مانند ماهواره نباشد، روش ارايه شده قابليت استفاده در محيط هاي فاقد GPS را دارد. منظور از رديابي در اينجا توليد سيگنال كنترلي از جنس سرعت براي حركت به موقعيتي مي باشد كه هدف حضور دارد. در اين پژوهش دو روش مبتني بر يادگيري تقويتي عميق بررسي شده است: روش اول از الگوريتم‌هاي خالص يادگيري تقويتي مانند PPO، SAC، DDPG، TRPO و A2C براي توليد سيگنال‌هاي كنترلي استفاده مي‌كند. روش دوم، يك روش تركيبي از كنترل‌كننده PID با يادگيري تقويتي مي‌باشد، به‌طوري‌كه پارامترهاي كنترل كننده PID به صورت بي درنگ و تطبيقي تنظيم مي‌شوند. به‌منظور انتقال روان از شبيه‌سازي به دنياي واقعي، شبكه در يك محيط سفارشي AirSim با پيكربندي شبيه‌سازي در حلقه پرواز (SITL) مبتني بر ArduPilot دوباره آموزش داده شده است. اين تنظيمات، هماهنگي كامل ميان كنترل‌كننده پرواز در مرحله آموزش و نمونه واقعي را تضمين مي‌كند. نتايج شبيه سازي نشان مي‌دهند كه در روش يادگيري تقويتي خالص، الگوريتم PPO عملكرد بهتري نسبت به ساير الگوريتم‌ها دارد و در روش دوم، كه يك روش تركيبي است الگوريتم SAC به عنوان يك نظارت گر بر كنترل كننده PID بهترين نتيجه را ارائه مي‌دهد. همچنين، نتايج حاصل از شبيه‌سازي‌هاي شبه مونت‌كارلو، كارايي سيستم پيشنهادي در رديابي اهداف مانوردار را تأييد مي‌كنند. همچنين از طريق اضافه كردن باد در شبيه ساز ميزان مقاوم بودن هر روش در مقابل اغتشاش به دست آمد.

تاريخ ورود اطلاعات

1404/08/10

عنوان به انگليسي

Designing a Robot Controller for Tracking Moving Objects Using Deep Reinforcement Learning

تاريخ بهره برداري

9/22/2025 12:00:00 AM

دانشجوي وارد كننده اطلاعات

حميدرضا خسرواني

Name: حميدرضا خسرواني
Author: حميدرضا خسرواني

چكيده به لاتين

Unmanned Aerial Vehicles (UAVs) have become essential tools across various industries, offering advanced capabilities in surveillance, disaster response, agriculture, an‎d industrial inspections. The integration of artificial intelligence an‎d autonomous control has further enhanced their functionality, enabling real-time object tracking an‎d adaptive navigation in complex environments. This study focuses on target tracking an‎d autonomous lan‎ding on a moving platform using deep reinforcement learning (DRL) in a vision-based UAV navigation system. The proposed approach leverages a static FPV camera input processed by a YOLOv5s object detection model for initial template detection. The detected template is subsequently tracked using the OSTrack single-object tracking algorithm. The bounding box of the detected object is then fed into a DRL-based controller, which generates high- an‎d low-level control signals for tracking. Two DRL-based tracking methods are explored: the first utilizes pure reinforcement learning algorithms, such as PPO, SAC , DDPG , TRPO an‎d A2C, while the second integrates a PID controller with reinforcement learning, allowing for real-time adaptive hyperparameter tuning. To ensure seamless transition from simulation to real-world application, the network is retrained in a custom AirSim environment using the ArduPilot Simulation-in-the-Loop (SITL) configuration. This setup ensures consistency between the training an‎d actual flight controllers. Experimental results demonstrate that PPO outperforms other algorithms in the first method, while SAC exhibits superior performance in the second method. Additionally, pseudo-Monte Carlo simulations validate the proposed system’s effectiveness in tracking maneuvering targets, even under unpredictable movement conditions

كليدواژه هاي فارسي

يادگيري تقويتي عميق , برنامه ريزي مسير , بينايي ماشين

كليدواژه هاي لاتين

Deep reinforcement learning , Path planning , Machine vision

Author

Hamidreza Khosravani

SuperVisor

Dr Saeed Ebadollahi

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=33936&Field=0&DTC=6