-
شماره ركورد
10627
-
شماره راهنما(اين فيلد مربوط به كارشناس ميباشد لطفا آن را خالي بگذاريد)
64564646464
-
پديد آورنده
سجاد موسوي
-
عنوان
خودمختاري تنظيم پذير با استفاده از يادگيري تقويتي در سيست مهاي چندعامله
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
كامپيوتر - هوش مصنوعي رباتيك
-
سال تحصيل
شهريور 1391
-
تاريخ دفاع
شهريور 1391
-
استاد راهنما
دكتر مزيني
-
استاد مشاور
دكتر جاهد مطلق
-
چكيده
در يادگيري تقويتي عامل درصدد است تا بر اساس آزمايش و خطا اقدام اتي را انتخاب كند كه
جستجو ي مبتن ي » مجموع سيگنالهاي پاداش عددي كه دريافت ميكند، ماكزيمم شود. دو مشخصه
مه مترين ويژگيهاي متمايز كننده ي ادگيري تقو يتي از سا ير « بر آزمايش و خطا، و پاداش تأخير يافته
رو شهايي يادگيري م يباشند.
يادگيري تقويتي چندعامله به دليل اينكه تعداد پارامترهايي كه بايد ياد گرفته شوند به صورت نمايي با
افزايش تعداد عاملها افزايش پيدا ميكنند از نفرين ابعاد رنج م يبرد. يكي از راهكارهاي مقابله با اين
و (Hierarchical Reinforcement Learning) چالش استفاده از يادگيري تقويتي سلسله مراتبي
است. (Semi Markov Decision Processes) چارچوب فرايندهاي تصادفي شبه ماركوف
اين پايان نامه روش جديدي را مطرح م يكند كه با استفاده از ابزارها يي كه ا يجاد م يكند درصدد
(Hierarchical Abstract است از استراتژي مطرح شده در ماشي نهاي سلسله مراتبي مجرد
با تغييراتي به عنوان لا ي هاي سطح بالاتر -كنترل كننده - در ي ادگيري تقو يتي كه از Machines)
و option بهره م يبرد، استفاده كند. اين كار م يتواند به عنوان پل ي ب ين چارچوب option چارچوب
ديده شود كه سعي م يكند چارچوبي را مطرح كند كه معايبي از هر دو روش را با ساختارهاي HAM
ارتباطي بين آن ها كاهش دهد و در عين حال از مزاياي هر دو استفاده كند . روش پيشنهاد ي فضا ي
حالت ذهني را با استفاده از خوشه بندي فضاي حالت براي عامل شكل م يدهد سپس با بهره بردن از
و تجربياتي كه عامل در ح ين اجرا كسب كرده است ، اكتشاف موثر تر و HAM ايده هاي روش
هد فدارتري انجام م يدهد.
واژ ههاي كليدي: يادگيري تقويتي، يادگيري تقويتي سلسله مراتبي، سيستمهاي چندعامله، چارچوب،
تجريد، خوشه بندي.
-
لينک به اين مدرک :