سجاد موسوي

عنوان

خودمختاري تنظيم پذير با استفاده از يادگيري تقويتي در سيست مهاي چندعامله

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

كامپيوتر - هوش مصنوعي رباتيك

سال تحصيل

شهريور 1391

تاريخ دفاع

شهريور 1391

استاد راهنما

دكتر مزيني

استاد مشاور

دكتر جاهد مطلق

چكيده

در يادگيري تقويتي عامل درصدد است تا بر اساس آزمايش و خطا اقدام اتي را انتخاب كند كه جستجو ي مبتن ي » مجموع سيگنالهاي پاداش عددي كه دريافت ميكند، ماكزيمم شود. دو مشخصه مه مترين ويژگيهاي متمايز كننده ي ادگيري تقو يتي از سا ير « بر آزمايش و خطا، و پاداش تأخير يافته رو شهايي يادگيري م يباشند. يادگيري تقويتي چندعامله به دليل اينكه تعداد پارامترهايي كه بايد ياد گرفته شوند به صورت نمايي با افزايش تعداد عاملها افزايش پيدا ميكنند از نفرين ابعاد رنج م يبرد. يكي از راهكارهاي مقابله با اين و (Hierarchical Reinforcement Learning) چالش استفاده از يادگيري تقويتي سلسله مراتبي است. (Semi Markov Decision Processes) چارچوب فرايندهاي تصادفي شبه ماركوف اين پايان نامه روش جديدي را مطرح م يكند كه با استفاده از ابزارها يي كه ا يجاد م يكند درصدد (Hierarchical Abstract است از استراتژي مطرح شده در ماشي نهاي سلسله مراتبي مجرد با تغييراتي به عنوان لا ي هاي سطح بالاتر -كنترل كننده - در ي ادگيري تقو يتي كه از Machines) و option بهره م يبرد، استفاده كند. اين كار م يتواند به عنوان پل ي ب ين چارچوب option چارچوب ديده شود كه سعي م يكند چارچوبي را مطرح كند كه معايبي از هر دو روش را با ساختارهاي HAM ارتباطي بين آن ها كاهش دهد و در عين حال از مزاياي هر دو استفاده كند . روش پيشنهاد ي فضا ي حالت ذهني را با استفاده از خوشه بندي فضاي حالت براي عامل شكل م يدهد سپس با بهره بردن از و تجربياتي كه عامل در ح ين اجرا كسب كرده است ، اكتشاف موثر تر و HAM ايده هاي روش هد فدارتري انجام م يدهد. واژ ههاي كليدي: يادگيري تقويتي، يادگيري تقويتي سلسله مراتبي، سيستمهاي چندعامله، چارچوب، تجريد، خوشه بندي.

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=10627&Field=0&DTC=6