چکيده
چكيده
يادگيري تقويتي (Learning Reinforcement (در حال حاضر يكي از موضوعات داغ پژوهشمي محسموب
ميشود و محبوبيت آن روز به روز در حال افزايش است. در ايپ مطلب پمن موضموعي كمه عالقمنمدان و
فعاالن ايپ حوزه بايد در رابطه با آن بدانند تشريح ميشود.از آنجا كه يادگيري تقويتي نيازمند حجم زيمادي
از دادهها است، بنابرايپ بيشتر در دامنههايي مانند رباتيك كاربرد دارد كه در آنها دادههاي شبيهسازي شمده
به صورت آماده موجود هستند.در رباتيك و خودكارسازي صنعتي، يادگيري تقويتي براي قادرسازي رباتها
به ساخت سيستمهاي تطبيقي موثر براي خودشان كه از تجربيات و رفتارهاي خود ميآموزند مورد اسمتفاده
قرار ميگيرد. پژوهشهاي ديپ مايند (DeepMind (در زمينه يادگيري عميب تقويتي براي كنترل رباتيكي بما
استفاده از بازوهاي مكانيكي (Manipulation Robotic (با سياست نامتقارن مثال خوبي از ايپ مورد است.
واژههاي كليدي: يادگيري تقويتي ، كنترل بهينه ، يادگيري Q