سيده ساناز رضايي

عنوان

كاربرد انتزاع در يادگيري تقويتي پيوسته

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

كامپيوتر - هوش مصنوعي و رباتيك

سال تحصيل

اسفند 1392

تاريخ دفاع

اسفند 1392

استاد راهنما

دكتر مزيني

چكيده

چكيده يادگيري تقويتي را مي توان به صورت ساده به اين صورت بيان كرد، يادگيري بوسيله تعامل با محيط به منظور رسيدن به هدفي مشخص. مي توان گفت حل مساله يادگيري تقويتي يعني بدست آوردن خط مشي كه با عمل به آن بيشترين پاداش انتظاري را در بلند مدت كسب كنيم. RL با روش هاي محاسباتي ديگر متفاوت است چراكه اين روش به نمونه هاي نظارت شده (مانند روش هاي يادگيري با ناظر) متكي نيست و تاكيد بر روي يادگيري در اثر ارتباط مستقيم با محيط است در RL يك عامل بايد سياست بهينه را با توجه به مشاهدات يا آزمون و خطا در تعامل با يك محيط پويا به خوبي ياد بگيرد. پيدا كردن سياست بهينه در چهارچوب مسائلي كه با RL حل مي شوند زماني كه داراي فضاي حالت و عمل پيوسته هستند چالش بر انگيز است. در بسياري از مسائلي كه توسط RL حل مي شوند از MDP استفاده مي شود در صورتي كه در مسائل دنياي واقعي نياز است كه با فضاي عمل و حالت پيوسته ارتباط برقرار كنيم. يادگيري تقويتي داراي مشكل مقياس پذيري در محيط هاي با ابعاد بالا است به عبارتي ديگر براي عامل يادگيري تقويتي مسئله نفرين ابعاد وجود دارد به همين دليل براي استفاده از RL در فضاي حالت و عمل پيوسته از تجريد و تعميم كمك مي گيريم. تجريد و تعميم دو تكنيك بسيار مهم در يادگيري تقويتي پيوسته است، به طور خلاصه اينطور مي توان گفت كه تجريد تكنيكي براي كاهش پيچيدگي هاي مسئله است و تعميم تكنيكي است كه دانشي را كه قبلا بدست آمده ، بر روي موقعيت هاي مشاهده نشده اعمال مي كند و يا آن دانش را به خارج از حوزه مسئله گسترش مي دهد. در اين پايان نامه از تجريد و تعميم براي حل مسئله اي به كمك روش RL در فضاي حالت پيوسته استفاده كرده ايم. با استفاده از روش سلسله مراتبي، محيط هاي تجريد شده اي را ايجاد كرديم كه هر كدام به تنهايي حل مي شوند و سپس به كمك تحليل نتايج حاصل از آن ها ، گذرگاه استخراج مي شود. كلمات كليدي : يادگيري تقويتي پيوسته، تجريد، تعميم، خاصيت ماركوف، يادگيري تقويتي سلسله مراتبي

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=12894&Field=0&DTC=6