شماره ركورد
12894
شماره راهنما(اين فيلد مربوط به كارشناس ميباشد لطفا آن را خالي بگذاريد)
12894
پديد آورنده
سيده ساناز رضايي
عنوان
كاربرد انتزاع در يادگيري تقويتي پيوسته
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
كامپيوتر - هوش مصنوعي و رباتيك
سال تحصيل
اسفند 1392
تاريخ دفاع
اسفند 1392
استاد راهنما
دكتر مزيني
چكيده
چكيده
يادگيري تقويتي را مي توان به صورت ساده به اين صورت بيان كرد، يادگيري بوسيله تعامل با محيط به منظور رسيدن به هدفي مشخص. مي توان گفت حل مساله يادگيري تقويتي يعني بدست آوردن خط مشي كه با عمل به آن بيشترين پاداش انتظاري را در بلند مدت كسب كنيم. RL با روش هاي محاسباتي ديگر متفاوت است چراكه اين روش به نمونه هاي نظارت شده (مانند روش هاي يادگيري با ناظر) متكي نيست و تاكيد بر روي يادگيري در اثر ارتباط مستقيم با محيط است در RL يك عامل بايد سياست بهينه را با توجه به مشاهدات يا آزمون و خطا در تعامل با يك محيط پويا به خوبي ياد بگيرد. پيدا كردن سياست بهينه در چهارچوب مسائلي كه با RL حل مي شوند زماني كه داراي فضاي حالت و عمل پيوسته هستند چالش بر انگيز است.
در بسياري از مسائلي كه توسط RL حل مي شوند از MDP استفاده مي شود در صورتي كه در مسائل دنياي واقعي نياز است كه با فضاي عمل و حالت پيوسته ارتباط برقرار كنيم. يادگيري تقويتي داراي مشكل مقياس پذيري در محيط هاي با ابعاد بالا است به عبارتي ديگر براي عامل يادگيري تقويتي مسئله نفرين ابعاد وجود دارد به همين دليل براي استفاده از RL در فضاي حالت و عمل پيوسته از تجريد و تعميم كمك مي گيريم. تجريد و تعميم دو تكنيك بسيار مهم در يادگيري تقويتي پيوسته است، به طور خلاصه اينطور مي توان گفت كه تجريد تكنيكي براي كاهش پيچيدگي هاي مسئله است و تعميم تكنيكي است كه دانشي را كه قبلا بدست آمده ، بر روي موقعيت هاي مشاهده نشده اعمال مي كند و يا آن دانش را به خارج از حوزه مسئله گسترش مي دهد.
در اين پايان نامه از تجريد و تعميم براي حل مسئله اي به كمك روش RL در فضاي حالت پيوسته استفاده كرده ايم. با استفاده از روش سلسله مراتبي، محيط هاي تجريد شده اي را ايجاد كرديم كه هر كدام به تنهايي حل مي شوند و سپس به كمك تحليل نتايج حاصل از آن ها ، گذرگاه استخراج مي شود.
كلمات كليدي : يادگيري تقويتي پيوسته، تجريد، تعميم، خاصيت ماركوف، يادگيري تقويتي سلسله مراتبي