-
شماره ركورد
11630
-
عنوان
يادگيري تقويتي ايمن
-
سال تحصيل
1400
-
استاد راهنما
دكتر شاهرخ فرهمند
-
چکيده
ادگيري تقويتي در سال هاي اخير، توجه بسيار زيادي را به عنوان يك الگوريتم يادگيري ماشين براي
مسائلي كه در آن با محيط تعامل وجود دارد، به خود جلب كرده است. در اين الگوريتم ها عامل سعي
مي كند با استفاده از سعي و خطا و تعامل با محيط سياست بهينه اي را پيدا كند كه بيشترين مقدار پاداش
را در پي داشته باشد. يك چالش اساسي در اين الگوريتم ها، تضمين كردن ايمني عامل است براي مثال
جلوگيري از برخورد ربات به ديوار يا جلوگيري از برخورد خودروي خودران به موانع. در اين گونه مسائل
چنان چه ايمني تضمين نشود، نه تنها مي تواند فرآيند يادگيري را دچار مشكل كند بلكه باعث خسارات
مادي و حتي جاني نيز مي شود. در اين نوع مسائل يادگيري تقويتي كه به آن ها يادگيري تقويتي ايمن
گفته مي شود، عامل با اكتشاف محيط اقدام به بيشينه كردن مقدار پاداش خود مي كند و در همين حين
كه پاداش خود را بيشينه مي كند، سعي مي كند از حالت هاي خطرناك تا حد امكان دوري كند تا خسارات
احتمالي را به حداقل برساند. در واقع براي اين كه عامل به اين هدف برسد، از يك طرف بايد به اندازه
كافي از محيط تجربه كسب كند (به اكتشاف بپردازد) و از طرف ديگر از تجريباتي كه منجر به آسيب
رسيدن به عامل مي شود، دوري كند. هدف يادگيري تقويتي ايمن، ايجاد يك مصالحه ميان اين دو است
كه اين امر با حل يك مساله بهينه سازي ممكن مي شود. البته روش هاي ابتكاري چندي هم در اين راستا
پيشنهاد شده اند كه آن ها هم در اين گزارش مورد بررسي قرار مي گيرند.
-
نام دانشجو
محمد اميني
-
تاريخ ارائه
12/21/2022 12:00:00 AM
-
متن كامل
77464
-
پديد آورنده
محمد اميني
-
تاريخ ورود اطلاعات
1401/10/17
-
عنوان به انگليسي
Safe Reinforcement Learning
-
كليدواژه هاي فارسي
يادگيري تقويتي ايمن , يادگيري تقويتي , فرآيندهاي ماركوف محدود
-
كليدواژه هاي لاتين
Safe Reinforcement Learning , Reinforcement learning , Constrained markov decision process
-
لينک به اين مدرک :