• شماره ركورد
    10627
  • شماره راهنما(اين فيلد مربوط به كارشناس ميباشد لطفا آن را خالي بگذاريد)
    64564646464
  • پديد آورنده

    سجاد موسوي

  • عنوان
    خودمختاري تنظيم پذير با استفاده از يادگيري تقويتي در سيست مهاي چندعامله
  • مقطع تحصيلي
    كارشناسي ارشد
  • رشته تحصيلي
    كامپيوتر - هوش مصنوعي رباتيك
  • سال تحصيل
    شهريور 1391
  • تاريخ دفاع
    شهريور 1391
  • استاد راهنما
    دكتر مزيني
  • استاد مشاور
    دكتر جاهد مطلق
  • چكيده
    در يادگيري تقويتي عامل درصدد است تا بر اساس آزمايش و خطا اقدام اتي را انتخاب كند كه جستجو ي مبتن ي » مجموع سيگنالهاي پاداش عددي كه دريافت ميكند، ماكزيمم شود. دو مشخصه مه مترين ويژگيهاي متمايز كننده ي ادگيري تقو يتي از سا ير « بر آزمايش و خطا، و پاداش تأخير يافته رو شهايي يادگيري م يباشند. يادگيري تقويتي چندعامله به دليل اينكه تعداد پارامترهايي كه بايد ياد گرفته شوند به صورت نمايي با افزايش تعداد عاملها افزايش پيدا ميكنند از نفرين ابعاد رنج م يبرد. يكي از راهكارهاي مقابله با اين و (Hierarchical Reinforcement Learning) چالش استفاده از يادگيري تقويتي سلسله مراتبي است. (Semi Markov Decision Processes) چارچوب فرايندهاي تصادفي شبه ماركوف اين پايان نامه روش جديدي را مطرح م يكند كه با استفاده از ابزارها يي كه ا يجاد م يكند درصدد (Hierarchical Abstract است از استراتژي مطرح شده در ماشي نهاي سلسله مراتبي مجرد با تغييراتي به عنوان لا ي هاي سطح بالاتر -كنترل كننده - در ي ادگيري تقو يتي كه از Machines) و option بهره م يبرد، استفاده كند. اين كار م يتواند به عنوان پل ي ب ين چارچوب option چارچوب ديده شود كه سعي م يكند چارچوبي را مطرح كند كه معايبي از هر دو روش را با ساختارهاي HAM ارتباطي بين آن ها كاهش دهد و در عين حال از مزاياي هر دو استفاده كند . روش پيشنهاد ي فضا ي حالت ذهني را با استفاده از خوشه بندي فضاي حالت براي عامل شكل م يدهد سپس با بهره بردن از و تجربياتي كه عامل در ح ين اجرا كسب كرده است ، اكتشاف موثر تر و HAM ايده هاي روش هد فدارتري انجام م يدهد. واژ ههاي كليدي: يادگيري تقويتي، يادگيري تقويتي سلسله مراتبي، سيستمهاي چندعامله، چارچوب، تجريد، خوشه بندي.