شماره ركورد

8442

عنوان

بررسي روش هاي طراحي كنترل كننده مبتني بر يادگيري تقويتي ايمن

سال تحصيل

1400

استاد راهنما

دكتر سعيد شمقدري

چکيده

يادگيري تقويتي در يافتن سياستي براي عامل متمركز است كه پاداش طولاني مدت را به حداكثر رساند. اين كار با مشاهده مكرر وضعيت عامل، اقدام انجام شده بنابر سياست فعلي و همچنين پاداش دريافت شده انجام مي‌شود و با گذر زمان، عامل سياست خود را به منظور دستيابي به حداكثر پاداش تجمعي تغيير مي‌دهد. با اين حال، از آنجايي كه يادگيري تقويتي صرفاً حداكثرسازي پاداش طولاني مدت را در نظر دارد، احتمال برخورد با رفتارهاي پرخطر در فرآيند جستجو وجود خواهد داشت. اين ويژگي براي هر الگوريتم از مجموعه الگوريتم‌هاي يادگيري تقويتي كه روي سخت‌افزار مورد استفاده قرار مي‌گيرد، مشكل‌ساز است، زيرا سياست‌هاي يادگيري ناايمن مي‌توانند به سخت‌افزار و يا به انسان آسيب برسانند. بطور كلي رعايت محدوديت‌ها به منظور ايمني سيستم‌ها جزئي غيرقابل انكار در طراحي سيستم‌هاي كنترلي است. با ادغام محدوديت‌هاي ناشي از رعايت ايمني و مسئله يادگيري تقويتي، مفهومي به نام يادگيري تقويتي ايمن شكل مي‌گيرد كه در اين گزارش، ضمن معرفي رويكردهاي موجود براي طراحي كنترل‌كننده بهينه مبتني بر يادگيري تقويتي ايمن، با ارائه مثال‌هايي كارايي اين رويكردهاي نوين را مورد بررسي قرار مي‌دهيم.

نام دانشجو

سيدرضا اصغري

Name: سيدرضا اصغري
Author: سيدرضا اصغري

تاريخ ارائه

5/29/2021 12:00:00 AM

متن كامل

71221

پديد آورنده

سيدرضا اصغري

تاريخ ورود اطلاعات

1400/03/10

عنوان به انگليسي

Investigating the design methods of controller based on safe reinforcement learning

كليدواژه هاي فارسي

يادگيري تقويتي , يادگيري تقويتي ايمن , كنترل كننده بهينه , پاداش , تحقق محدوديت ها

كليدواژه هاي لاتين

Reinforcement learning , Safe Reinforcement learning , Optimal controller , Reward , realization of constraints

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=8442&Field=0&DTC=14