-
شماره ركورد
8442
-
عنوان
بررسي روش هاي طراحي كنترل كننده مبتني بر يادگيري تقويتي ايمن
-
سال تحصيل
1400
-
استاد راهنما
دكتر سعيد شمقدري
-
چکيده
يادگيري تقويتي در يافتن سياستي براي عامل متمركز است كه پاداش طولاني مدت را به حداكثر رساند. اين كار با مشاهده مكرر وضعيت عامل، اقدام انجام شده بنابر سياست فعلي و همچنين پاداش دريافت شده انجام ميشود و با گذر زمان، عامل سياست خود را به منظور دستيابي به حداكثر پاداش تجمعي تغيير ميدهد. با اين حال، از آنجايي كه يادگيري تقويتي صرفاً حداكثرسازي پاداش طولاني مدت را در نظر دارد، احتمال برخورد با رفتارهاي پرخطر در فرآيند جستجو وجود خواهد داشت. اين ويژگي براي هر الگوريتم از مجموعه الگوريتمهاي يادگيري تقويتي كه روي سختافزار مورد استفاده قرار ميگيرد، مشكلساز است، زيرا سياستهاي يادگيري ناايمن ميتوانند به سختافزار و يا به انسان آسيب برسانند.
بطور كلي رعايت محدوديتها به منظور ايمني سيستمها جزئي غيرقابل انكار در طراحي سيستمهاي كنترلي است. با ادغام محدوديتهاي ناشي از رعايت ايمني و مسئله يادگيري تقويتي، مفهومي به نام يادگيري تقويتي ايمن شكل ميگيرد كه در اين گزارش، ضمن معرفي رويكردهاي موجود براي طراحي كنترلكننده بهينه مبتني بر يادگيري تقويتي ايمن، با ارائه مثالهايي كارايي اين رويكردهاي نوين را مورد بررسي قرار ميدهيم.
-
نام دانشجو
سيدرضا اصغري
-
تاريخ ارائه
5/29/2021 12:00:00 AM
-
متن كامل
71221
-
پديد آورنده
سيدرضا اصغري
-
تاريخ ورود اطلاعات
1400/03/10
-
عنوان به انگليسي
Investigating the design methods of controller based on safe reinforcement learning
-
كليدواژه هاي فارسي
يادگيري تقويتي , يادگيري تقويتي ايمن , كنترل كننده بهينه , پاداش , تحقق محدوديت ها
-
كليدواژه هاي لاتين
Reinforcement learning , Safe Reinforcement learning , Optimal controller , Reward , realization of constraints
-
لينک به اين مدرک :