-
شماره ركورد
12894
-
شماره راهنما(اين فيلد مربوط به كارشناس ميباشد لطفا آن را خالي بگذاريد)
12894
-
پديد آورنده
سيده ساناز رضايي
-
عنوان
كاربرد انتزاع در يادگيري تقويتي پيوسته
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
كامپيوتر - هوش مصنوعي و رباتيك
-
سال تحصيل
اسفند 1392
-
تاريخ دفاع
اسفند 1392
-
استاد راهنما
دكتر مزيني
-
چكيده
چكيده
يادگيري تقويتي را مي توان به صورت ساده به اين صورت بيان كرد، يادگيري بوسيله تعامل با محيط به منظور رسيدن به هدفي مشخص. مي توان گفت حل مساله يادگيري تقويتي يعني بدست آوردن خط مشي كه با عمل به آن بيشترين پاداش انتظاري را در بلند مدت كسب كنيم. RL با روش هاي محاسباتي ديگر متفاوت است چراكه اين روش به نمونه هاي نظارت شده (مانند روش هاي يادگيري با ناظر) متكي نيست و تاكيد بر روي يادگيري در اثر ارتباط مستقيم با محيط است در RL يك عامل بايد سياست بهينه را با توجه به مشاهدات يا آزمون و خطا در تعامل با يك محيط پويا به خوبي ياد بگيرد. پيدا كردن سياست بهينه در چهارچوب مسائلي كه با RL حل مي شوند زماني كه داراي فضاي حالت و عمل پيوسته هستند چالش بر انگيز است.
در بسياري از مسائلي كه توسط RL حل مي شوند از MDP استفاده مي شود در صورتي كه در مسائل دنياي واقعي نياز است كه با فضاي عمل و حالت پيوسته ارتباط برقرار كنيم. يادگيري تقويتي داراي مشكل مقياس پذيري در محيط هاي با ابعاد بالا است به عبارتي ديگر براي عامل يادگيري تقويتي مسئله نفرين ابعاد وجود دارد به همين دليل براي استفاده از RL در فضاي حالت و عمل پيوسته از تجريد و تعميم كمك مي گيريم. تجريد و تعميم دو تكنيك بسيار مهم در يادگيري تقويتي پيوسته است، به طور خلاصه اينطور مي توان گفت كه تجريد تكنيكي براي كاهش پيچيدگي هاي مسئله است و تعميم تكنيكي است كه دانشي را كه قبلا بدست آمده ، بر روي موقعيت هاي مشاهده نشده اعمال مي كند و يا آن دانش را به خارج از حوزه مسئله گسترش مي دهد.
در اين پايان نامه از تجريد و تعميم براي حل مسئله اي به كمك روش RL در فضاي حالت پيوسته استفاده كرده ايم. با استفاده از روش سلسله مراتبي، محيط هاي تجريد شده اي را ايجاد كرديم كه هر كدام به تنهايي حل مي شوند و سپس به كمك تحليل نتايج حاصل از آن ها ، گذرگاه استخراج مي شود.
كلمات كليدي : يادگيري تقويتي پيوسته، تجريد، تعميم، خاصيت ماركوف، يادگيري تقويتي سلسله مراتبي
-
لينک به اين مدرک :