شماره ركورد
10627
شماره راهنما(اين فيلد مربوط به كارشناس ميباشد لطفا آن را خالي بگذاريد)
64564646464
پديد آورنده
سجاد موسوي
عنوان
خودمختاري تنظيم پذير با استفاده از يادگيري تقويتي در سيست مهاي چندعامله
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
كامپيوتر - هوش مصنوعي رباتيك
سال تحصيل
شهريور 1391
تاريخ دفاع
شهريور 1391
استاد راهنما
دكتر مزيني
استاد مشاور
دكتر جاهد مطلق
چكيده
در يادگيري تقويتي عامل درصدد است تا بر اساس آزمايش و خطا اقدام اتي را انتخاب كند كه
جستجو ي مبتن ي » مجموع سيگنالهاي پاداش عددي كه دريافت ميكند، ماكزيمم شود. دو مشخصه
مه مترين ويژگيهاي متمايز كننده ي ادگيري تقو يتي از سا ير « بر آزمايش و خطا، و پاداش تأخير يافته
رو شهايي يادگيري م يباشند.
يادگيري تقويتي چندعامله به دليل اينكه تعداد پارامترهايي كه بايد ياد گرفته شوند به صورت نمايي با
افزايش تعداد عاملها افزايش پيدا ميكنند از نفرين ابعاد رنج م يبرد. يكي از راهكارهاي مقابله با اين
و (Hierarchical Reinforcement Learning) چالش استفاده از يادگيري تقويتي سلسله مراتبي
است. (Semi Markov Decision Processes) چارچوب فرايندهاي تصادفي شبه ماركوف
اين پايان نامه روش جديدي را مطرح م يكند كه با استفاده از ابزارها يي كه ا يجاد م يكند درصدد
(Hierarchical Abstract است از استراتژي مطرح شده در ماشي نهاي سلسله مراتبي مجرد
با تغييراتي به عنوان لا ي هاي سطح بالاتر -كنترل كننده - در ي ادگيري تقو يتي كه از Machines)
و option بهره م يبرد، استفاده كند. اين كار م يتواند به عنوان پل ي ب ين چارچوب option چارچوب
ديده شود كه سعي م يكند چارچوبي را مطرح كند كه معايبي از هر دو روش را با ساختارهاي HAM
ارتباطي بين آن ها كاهش دهد و در عين حال از مزاياي هر دو استفاده كند . روش پيشنهاد ي فضا ي
حالت ذهني را با استفاده از خوشه بندي فضاي حالت براي عامل شكل م يدهد سپس با بهره بردن از
و تجربياتي كه عامل در ح ين اجرا كسب كرده است ، اكتشاف موثر تر و HAM ايده هاي روش
هد فدارتري انجام م يدهد.
واژ ههاي كليدي: يادگيري تقويتي، يادگيري تقويتي سلسله مراتبي، سيستمهاي چندعامله، چارچوب،
تجريد، خوشه بندي.