شماره ركورد
11630
عنوان
يادگيري تقويتي ايمن
سال تحصيل
1400
استاد راهنما
دكتر شاهرخ فرهمند
چکيده
ادگيري تقويتي در سال هاي اخير، توجه بسيار زيادي را به عنوان يك الگوريتم يادگيري ماشين براي
مسائلي كه در آن با محيط تعامل وجود دارد، به خود جلب كرده است. در اين الگوريتم ها عامل سعي
مي كند با استفاده از سعي و خطا و تعامل با محيط سياست بهينه اي را پيدا كند كه بيشترين مقدار پاداش
را در پي داشته باشد. يك چالش اساسي در اين الگوريتم ها، تضمين كردن ايمني عامل است براي مثال
جلوگيري از برخورد ربات به ديوار يا جلوگيري از برخورد خودروي خودران به موانع. در اين گونه مسائل
چنان چه ايمني تضمين نشود، نه تنها مي تواند فرآيند يادگيري را دچار مشكل كند بلكه باعث خسارات
مادي و حتي جاني نيز مي شود. در اين نوع مسائل يادگيري تقويتي كه به آن ها يادگيري تقويتي ايمن
گفته مي شود، عامل با اكتشاف محيط اقدام به بيشينه كردن مقدار پاداش خود مي كند و در همين حين
كه پاداش خود را بيشينه مي كند، سعي مي كند از حالت هاي خطرناك تا حد امكان دوري كند تا خسارات
احتمالي را به حداقل برساند. در واقع براي اين كه عامل به اين هدف برسد، از يك طرف بايد به اندازه
كافي از محيط تجربه كسب كند (به اكتشاف بپردازد) و از طرف ديگر از تجريباتي كه منجر به آسيب
رسيدن به عامل مي شود، دوري كند. هدف يادگيري تقويتي ايمن، ايجاد يك مصالحه ميان اين دو است
كه اين امر با حل يك مساله بهينه سازي ممكن مي شود. البته روش هاي ابتكاري چندي هم در اين راستا
پيشنهاد شده اند كه آن ها هم در اين گزارش مورد بررسي قرار مي گيرند.
نام دانشجو
محمد اميني
تاريخ ارائه
12/21/2022 12:00:00 AM
متن كامل
77464
پديد آورنده
محمد اميني
تاريخ ورود اطلاعات
1401/10/17
عنوان به انگليسي
Safe Reinforcement Learning
كليدواژه هاي فارسي
يادگيري تقويتي ايمن , يادگيري تقويتي , فرآيندهاي ماركوف محدود
كليدواژه هاي لاتين
Safe Reinforcement Learning , Reinforcement learning , Constrained markov decision process