مجيد انجيدني

عنوان

يادگيري ربات پادار صفحه‌اي به منظور بهبود قوام يا مصرف انرژي هنگام راه‌رفتن

مقطع تحصيلي

دكتري

رشته تحصيلي

هوش مصنوعي و رباتيك

تاريخ دفاع

دي ماه 1396

استاد راهنما

دكتر محمدرضا جاهدمطلق - دكتر محمود فتحي

استاد مشاور

دكتر مجيد نيلي احمدآبادي

دانشكده

كامپيوتر

چكيده

طراحي گيت حركتي براي ربات‌هاي دوپا با كف‌پاي نقطه‌اي به صورت يك مساله بهينه‌سازي غير‌خطي مقيد فرموله مي‌شود كه توسط يك روش بهينه‌سازي عددي برون‌خط قابل حل مي‌باشد. در حضور خطاي مدل‌سازي ناشناخته يا تغيير محيط، گيت طراحي‌شده ممكن است ناكارا بوده و امكان بهبود برخط گيت بعد از بهينه‌سازي وجود ندارد. امروزه افزودن توانايي يادگيري به ربات‌ها، يكي از دغدغه‌هاي مهم پژوهش‌گران در جهت افزايش هوشمندي آن‌ها محسوب مي‌شود و با اين نگرش نياز به يك روش يادگيري تقويتي برخط جهت يادگيري گيت حركتي احساس مي‌شود. در اين رساله، روش كنترل بهينه تصادفي انتگرال مسير تعميم يافته به مدل حلقه‌بسته ربات‌هاي دوپاي صفحه‌اي با كف پاي نقطه‌اي اعمال مي‌شود كه به يك الگوريتم يادگيري تقويتي برخط جديد جهت يادگيري گيت حركتي منجر مي‌گردد. نتايج نشان مي‌دهند كه الگوريتم يادگيري پيشنهادي در تطبيق كنترل‌كننده ربات مدل‌سازي شده خرگوش‌، كه يك ربات صفحه‌اي با كف پاي نقطه‌اي مي‌باشد، به منظور راه‌رفتن پايدار با خصوصيات موردنظر بسيار موفق عمل مي‌كند. در ادامه اين رساله، يادگيري گيت حركتي در حضور محدوده‌اي از اغتشاشات شناخته‌شده مورد توجه قرار مي‌گيرد و با توجه به اين كه گيت طراحي‌شده توسط الگوريتم يادگيري پيشنهادي ممكن است به اين اغتشاشات مقاوم نباشد، نسخه مقاومي از الگوريتم پيشنهادي توسعه داده مي‌شود كه هوشمندي ربات را در مواجهه با اغتشاشات و خطاهاي مدل‌سازي افزايش مي‌دهد. ايده نسخه مقاوم حداقل كردن هزينه بدترين مسيرهاي نمونه‌اي است كه در حضور اغتشاشات توليد مي‌شوند. بايد توجه داشت كه در اين رساله، پايداري ربات دوپاي صفحه‌اي با كف پاي نقطه‌اي توسط كنترل‌كننده‌هاي نامتغير با زمان تضمين مي‌شود، اما طراحي كنترل‌كننده نامتغير با زمان براي ربات‌هاي چهارپا، به دليل ديناميك‌هاي تركيبي پيچيده بسيار مشكل است. بنابراين، بجاي طراحي يك كنترل‌كننده نامتغير با زمان براي ربات چهارپا، ايده ابتكاري در اين رساله، تجزيه ربات چهارپا به دو ربات دوپا مي‌باشد كه توسط دو كنترل‌كننده نامتغير با زمان به طور هم‌زمان كنترل مي‌شوند. سپس نشان مي‌دهيم كه چگونه الگوريتم يادگيري پيشنهادي جهت تنظيم پارامترهاي دو كنترل‌كننده چهارپا قابل توسعه است. نتايج نشان مي‌دهد كه توسط روش يادگيري توسعه يافته، راه‌رفتني پايدار و با خصوصيات موردنياز بدست مي‌آيد و خطاي مدل‌سازي به سرعت جبران مي‌گردد.

تاريخ ورود اطلاعات

1396/10/20

تاريخ بهره برداري

12/30/2017 12:00:00 AM

دانشجوي وارد كننده اطلاعات

مجيد انجيدني

Name: مجيد انجيدني
Author: مجيد انجيدني

چكيده به لاتين

Designing a stable walking gait for biped robots with point-feet is stated as a constrained nonlinear optimization problem which is normally solved by an offline numerical optimization method. On the result of an unknown modeling error or environment change, the designed gait may be ineffective and an online gait improvement is impossible after the optimization. In this thesis, we apply Generalized Path Integral Stochastic Optimal Control to closed-loop model of planar biped robots with point-feet which leads to an online Reinforcement Learning algorithm to design the walking gait. The results show that the proposed algorithm is very successful to adapt the controller of Rabbit, which is a planar biped robot with point-feet, for stable walking with desired features. We have continued with designing a robust stable walking gait for biped robots against a known range of disturbances, which is very important in real applications. Since, the gait designed by the proposed algorithm might not be robust enough against disturbances, we extend a robust version of the proposed algorithm to design an exponentially stable walking gait which is robust against modeling errors/disturbances. It is done by minimizing the costs of worst rollouts which are generated in presence of different modeling errors/disturbances. Time-invariant controllers generally guaranty the stability of a biped robot with point-feet which is a very interesting feature. However, complex hybrid dynamics of quadruped robots made designing the time-invariant controller very difficult. Therefore instead of designing a unique time-invariant controller for a quadruped robot, we decompose the robot into two biped robots which are controlled by two time-invariant controllers simultaneously. Then we introduce how to extend the proposed algorithm to adjust the parameters of the two controllers. The results show that using the extended algorithm, an stable walking including the desired features is attained for a new situation and the modeling error is quickly compensated.

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=18303&Field=0&DTC=6