شماره ركورد
8442
عنوان
بررسي روش هاي طراحي كنترل كننده مبتني بر يادگيري تقويتي ايمن
سال تحصيل
1400
استاد راهنما
دكتر سعيد شمقدري
چکيده
يادگيري تقويتي در يافتن سياستي براي عامل متمركز است كه پاداش طولاني مدت را به حداكثر رساند. اين كار با مشاهده مكرر وضعيت عامل، اقدام انجام شده بنابر سياست فعلي و همچنين پاداش دريافت شده انجام ميشود و با گذر زمان، عامل سياست خود را به منظور دستيابي به حداكثر پاداش تجمعي تغيير ميدهد. با اين حال، از آنجايي كه يادگيري تقويتي صرفاً حداكثرسازي پاداش طولاني مدت را در نظر دارد، احتمال برخورد با رفتارهاي پرخطر در فرآيند جستجو وجود خواهد داشت. اين ويژگي براي هر الگوريتم از مجموعه الگوريتمهاي يادگيري تقويتي كه روي سختافزار مورد استفاده قرار ميگيرد، مشكلساز است، زيرا سياستهاي يادگيري ناايمن ميتوانند به سختافزار و يا به انسان آسيب برسانند.
بطور كلي رعايت محدوديتها به منظور ايمني سيستمها جزئي غيرقابل انكار در طراحي سيستمهاي كنترلي است. با ادغام محدوديتهاي ناشي از رعايت ايمني و مسئله يادگيري تقويتي، مفهومي به نام يادگيري تقويتي ايمن شكل ميگيرد كه در اين گزارش، ضمن معرفي رويكردهاي موجود براي طراحي كنترلكننده بهينه مبتني بر يادگيري تقويتي ايمن، با ارائه مثالهايي كارايي اين رويكردهاي نوين را مورد بررسي قرار ميدهيم.
نام دانشجو
سيدرضا اصغري
تاريخ ارائه
5/29/2021 12:00:00 AM
متن كامل
71221
پديد آورنده
سيدرضا اصغري
تاريخ ورود اطلاعات
1400/03/10
عنوان به انگليسي
Investigating the design methods of controller based on safe reinforcement learning
كليدواژه هاي فارسي
يادگيري تقويتي , يادگيري تقويتي ايمن , كنترل كننده بهينه , پاداش , تحقق محدوديت ها
كليدواژه هاي لاتين
Reinforcement learning , Safe Reinforcement learning , Optimal controller , Reward , realization of constraints