• شماره ركورد
    8442
  • عنوان
    بررسي روش هاي طراحي كنترل كننده مبتني بر يادگيري تقويتي ايمن
  • سال تحصيل
    1400
  • استاد راهنما
    دكتر سعيد شمقدري
  • چکيده
    يادگيري تقويتي در يافتن سياستي براي عامل متمركز است كه پاداش طولاني مدت را به حداكثر رساند. اين كار با مشاهده مكرر وضعيت عامل، اقدام انجام شده بنابر سياست فعلي و همچنين پاداش دريافت شده انجام مي‌شود و با گذر زمان، عامل سياست خود را به منظور دستيابي به حداكثر پاداش تجمعي تغيير مي‌دهد. با اين حال، از آنجايي كه يادگيري تقويتي صرفاً حداكثرسازي پاداش طولاني مدت را در نظر دارد، احتمال برخورد با رفتارهاي پرخطر در فرآيند جستجو وجود خواهد داشت. اين ويژگي براي هر الگوريتم از مجموعه الگوريتم‌هاي يادگيري تقويتي كه روي سخت‌افزار مورد استفاده قرار مي‌گيرد، مشكل‌ساز است، زيرا سياست‌هاي يادگيري ناايمن مي‌توانند به سخت‌افزار و يا به انسان آسيب برسانند. بطور كلي رعايت محدوديت‌ها به منظور ايمني سيستم‌ها جزئي غيرقابل انكار در طراحي سيستم‌هاي كنترلي است. با ادغام محدوديت‌هاي ناشي از رعايت ايمني و مسئله يادگيري تقويتي، مفهومي به نام يادگيري تقويتي ايمن شكل مي‌گيرد كه در اين گزارش، ضمن معرفي رويكردهاي موجود براي طراحي كنترل‌كننده بهينه مبتني بر يادگيري تقويتي ايمن، با ارائه مثال‌هايي كارايي اين رويكردهاي نوين را مورد بررسي قرار مي‌دهيم.
  • نام دانشجو

    سيدرضا اصغري

  • تاريخ ارائه
    5/29/2021 12:00:00 AM
  • متن كامل
    71221
  • پديد آورنده

    سيدرضا اصغري

  • تاريخ ورود اطلاعات
    1400/03/10
  • عنوان به انگليسي
    Investigating the design methods of controller based on safe reinforcement learning
  • كليدواژه هاي فارسي
    يادگيري تقويتي , يادگيري تقويتي ايمن , كنترل كننده بهينه , پاداش , تحقق محدوديت ها
  • كليدواژه هاي لاتين
    Reinforcement learning , Safe Reinforcement learning , Optimal controller , Reward , realization of constraints