شماره ركورد

11630

عنوان

يادگيري تقويتي ايمن

سال تحصيل

1400

استاد راهنما

دكتر شاهرخ فرهمند

چکيده

ادگيري تقويتي در سال هاي اخير، توجه بسيار زيادي را به عنوان يك الگوريتم يادگيري ماشين براي مسائلي كه در آن با محيط تعامل وجود دارد، به خود جلب كرده است. در اين الگوريتم ها عامل سعي مي كند با استفاده از سعي و خطا و تعامل با محيط سياست بهينه اي را پيدا كند كه بيشترين مقدار پاداش را در پي داشته باشد. يك چالش اساسي در اين الگوريتم ها، تضمين كردن ايمني عامل است براي مثال جلوگيري از برخورد ربات به ديوار يا جلوگيري از برخورد خودروي خودران به موانع. در اين گونه مسائل چنان چه ايمني تضمين نشود، نه تنها مي تواند فرآيند يادگيري را دچار مشكل كند بلكه باعث خسارات مادي و حتي جاني نيز مي شود. در اين نوع مسائل يادگيري تقويتي كه به آن ها يادگيري تقويتي ايمن گفته مي شود، عامل با اكتشاف محيط اقدام به بيشينه كردن مقدار پاداش خود مي كند و در همين حين كه پاداش خود را بيشينه مي كند، سعي مي كند از حالت هاي خطرناك تا حد امكان دوري كند تا خسارات احتمالي را به حداقل برساند. در واقع براي اين كه عامل به اين هدف برسد، از يك طرف بايد به اندازه كافي از محيط تجربه كسب كند (به اكتشاف بپردازد) و از طرف ديگر از تجريباتي كه منجر به آسيب رسيدن به عامل مي شود، دوري كند. هدف يادگيري تقويتي ايمن، ايجاد يك مصالحه ميان اين دو است كه اين امر با حل يك مساله بهينه سازي ممكن مي شود. البته روش هاي ابتكاري چندي هم در اين راستا پيشنهاد شده اند كه آن ها هم در اين گزارش مورد بررسي قرار مي گيرند.

نام دانشجو

محمد اميني

Name: محمد اميني
Author: محمد اميني

تاريخ ارائه

12/21/2022 12:00:00 AM

متن كامل

77464

پديد آورنده

محمد اميني

تاريخ ورود اطلاعات

1401/10/17

عنوان به انگليسي

Safe Reinforcement Learning

كليدواژه هاي فارسي

يادگيري تقويتي ايمن , يادگيري تقويتي , فرآيندهاي ماركوف محدود

كليدواژه هاي لاتين

Safe Reinforcement Learning , Reinforcement learning , Constrained markov decision process

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=11630&Field=0&DTC=14