-
شماره ركورد
15463
-
شماره راهنما(اين فيلد مربوط به كارشناس ميباشد لطفا آن را خالي بگذاريد)
15463
-
پديد آورنده
ابوالفضل يزداني پرائي
-
عنوان
بهبود عملكرد يادگيري تقويتي در شبيهساز دوبعدي ربات هاي فوتباليست
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
هوش مصنوعي و رباتيك
-
سال تحصيل
خردادماه1394
-
تاريخ دفاع
خردادماه1394
-
استاد راهنما
دكتر ناصر مزيّني و دكتر احمد اكبري
-
دانشكده
كامپيوتر
-
چكيده
چكيده
الگوريتمهاي يادگيري تقويتي بهطور موفقيتآميز در چندين بخش حوزه فوتبال شبيهساز روبوكاپ اعمال شده است. يكي از آن حوزهها بازي Keepaway در رباتهاي فوتباليست شبيهساز دوبعدي هست. فوتبال رباتها يكي از سيستمهاي چندعاملي بسيار پيچيده است كه در آن عاملها نقش بازيكنان فوتبال را ايفا ميكنند و با استفاده از الگوريتمهاي مختلف، عمل يادگيري توسط بازيكنان انجام ميپذيرد. اين سيستم داراي محيطي با ويژگيهاي نويزي، غيرقطعي، نيمه مشاهدهپذير، بلادرنگ و با ابعاد بالا هست. يادگيري تقويتي داراي مشكل مقياسپذيري در محيطهاي با ابعاد بالا هست. بهعبارتديگر براي عامل يادگيري تقويتي مسئله نحسي ابعاد (معضل ابعاد بالا) وجود دارد. هدف از اين بازي نگهداشتن هرچه بيشتر توپ توسط بازيكنان Keeper در محدوده زمينبازيهست.
در اين پاياننامه براي كاهش ابعاد روش Tile codingبكار برده شده و براي يادگيري عاملها از الگوريتم Q-SARSAدر بازي Keepaway رباتهاي فوتباليست استفاده شده است. سپس به مقايسه اين الگوريتم با سه روش پايه و الگوريتم يادگيري SARSA پرداخته و نتايج كسبشدهرا گزارش كرديم.
با استفاده از الگوريتم يادگيريQ-SARSAمدتزماننگهداشتن توپ توسط عاملهاي Keeper در مقايسه با روشنگهداشتن 2.5 برابر ، روش تصادفي 2.1 برابر ، روش كدگذاري دستي 1.6برابر و روش SARSAحدوداً 1.4 برابر بهبود داشتيم.
واژههاي كليدي:يادگيري تقويتي، رباتهاي شبيهساز دوبعدي، keepaway، Q-SARSA، Tile Coding
-
لينک به اين مدرک :