• شماره ركورد
    15463
  • شماره راهنما(اين فيلد مربوط به كارشناس ميباشد لطفا آن را خالي بگذاريد)
    15463
  • پديد آورنده

    ابوالفضل يزداني پرائي

  • عنوان
    بهبود عملكرد يادگيري تقويتي در شبيه‌ساز دوبعدي ربات هاي فوتباليست
  • مقطع تحصيلي
    كارشناسي ارشد
  • رشته تحصيلي
    هوش مصنوعي و رباتيك
  • سال تحصيل
    خرداد‌ماه1394
  • تاريخ دفاع
    خرداد‌ماه1394
  • استاد راهنما
    دكتر ناصر مزيّني و دكتر احمد اكبري
  • دانشكده
    كامپيوتر
  • چكيده
    چكيده الگوريتم‌هاي يادگيري تقويتي به‌طور موفقيت‌آميز در چندين بخش حوزه فوتبال شبيه‌ساز روبوكاپ اعمال شده است. يكي از آن حوزه‌ها بازي Keepaway در ربات‌هاي فوتباليست شبيه‌ساز دو‌بعدي هست. فوتبال ربات‌ها يكي از سيستم‌هاي چندعاملي بسيار پيچيده است كه در آن عامل‌ها نقش بازيكنان فوتبال را ايفا مي‌كنند و با استفاده از الگوريتم‌هاي مختلف، عمل يادگيري توسط بازيكنان انجام مي‌پذيرد. اين سيستم داراي محيطي با ويژگي‌هاي نويزي، غيرقطعي، نيمه مشاهده‌پذير، بلادرنگ و با ابعاد بالا هست. يادگيري تقويتي داراي مشكل مقياس‌پذيري در محيط‌هاي با ابعاد بالا هست. به‌عبارت‌ديگر براي عامل يادگيري تقويتي مسئله نحسي ابعاد (معضل ابعاد بالا) وجود دارد. هدف از اين بازي نگه‌داشتن هرچه بيشتر توپ توسط بازيكنان Keeper در محدوده زمين‌بازيهست. در اين پايان‌نامه براي كاهش ابعاد روش Tile codingبكار برده شده و براي يادگيري عامل‌ها از الگوريتم Q-SARSAدر بازي Keepaway ربات‌هاي فوتباليست استفاده شده است. سپس به مقايسه اين الگوريتم با سه روش پايه و الگوريتم يادگيري SARSA پرداخته و نتايج كسب‌شدهرا گزارش كرديم. با استفاده از الگوريتم يادگيريQ-SARSAمدت‌زماننگه‌داشتن توپ توسط عامل‌هاي Keeper در مقايسه با روش‌نگه‌داشتن 2.5 برابر ، روش تصادفي 2.1 برابر ، روش كدگذاري دستي 1.6برابر و روش SARSAحدوداً 1.4 برابر بهبود داشتيم. واژه‌هاي كليدي:يادگيري تقويتي، ربات‌هاي شبيه‌ساز دوبعدي، keepaway، Q-SARSA، Tile Coding