-
شماره ركورد
9916
-
شماره راهنما(اين فيلد مربوط به كارشناس ميباشد لطفا آن را خالي بگذاريد)
9916
-
پديد آورنده
بهزاد غضنفري
-
عنوان
استفاده از زير اهداف براي بهبود كارايي يادگيري تقويتي در سيستمهاي چند عامله
-
مقطع تحصيلي
درجه كارشناسي ارشد
-
رشته تحصيلي
مهندسي كامپيوتر گرايش هوش مصنوعي و رباتيك
-
سال تحصيل
اسفند ماه 1390
-
تاريخ دفاع
اسفند ماه 1390
-
استاد راهنما
دكتر ناصر مزيني دكتر محمد رضا جاهد مطلق
-
چكيده
چكيده
يادگيري تقويتي (RL) را مي¬توان به اين شكل تعريف كرد كه عامل بر اساس آزمايش و خطا درصدد است كه چه اقدام¬هايي را انجام دهد به گونه¬اي كه مجموع سيگنال¬هاي پاداش عددي كه دريافت مي¬كند، ماكزيمم شود. دو مشخصه «جستجوي مبتني بر آزمايش و خطا، و پاداش تأخير يافته» از مهمترين ويژگي¬هاي متمايز كننده يادگيري تقويتي از ساير روش¬هاي يادگيري هستند.
يادگيري تقويتي داراي مشكل مقياس پذيري در محيط¬هاي با ابعاد بالا است به عبارت ديگر براي عامل يادگيري تقويتي مسئله نفرين ابعاد (معضل ابعاد بالا) وجود دارد. يكي از راهكار¬هاي مقابله با اين چالش استفاده از يادگيري تقويتي سلسله مراتبي و چارچوب SMDP است. يك مسئله اصلي در يادگيري تقويتي سلسله مراتبي ايجاد اقدامات گسترش يافته زماني يا چگونگي شكستن وظيفه اصلي به زير وظايف به صورت اتوماتيك است. براي ايجاد اقدامات گسترش داده شده زماني نياز به تعيين زير اهداف داريم. اينكه زير اهداف به صورت اتوماتيك در مسائل مختلف تعيين شوند، يك چالش جدي براي يادگيري تقويتي است. تشخيص دقيق آنها نقش بسزايي در بالا بردن سرعت همگرايي به خط مشي بهينه و كارايي انتقال دانش را دارد.
براي استخراج گذرگاه¬ها در يادگيري تقويتي تاكنون روشهاي گوناگوني مطرح شده است. اين روشها عموماً داراي پيچيدگي زماني بالا و هم چنين نيازمند دانش طراح هستند تا بتوانند گذرگاهها را استخراج كنند. علاوه بر اين، براي اينكه بتوانند گذرگاهها را استخراج كنند نيازمند رعايت شرطهايي در محيط هستند. در يادگيري تقويتي از آنجايي كه تاكيد زيادي بر ناشناخته بودن محيط و كمك نگرفتن از طراح وجود دارد سعي بر اين است كه تا حد ممكن نياز به دانش قبلي را كاهش دهيم (خود مختاري عامل را تقويت كنيم). علاوه بر اين، هر چه وابستگي الگوريتم به نوع و خواص
محيط كاهش پيدا كند، الگوريتمهاي مقاومي را در حقيقت ايجاد كردهايم.
تعداد محدودي از روشهايي كه تاكنون ارائه شدهاند قادر به استخراج هر دو نوع گذرگاه¬هاي ارزش و ساختار در شيوه هاي غير همزمان و همزمان هستند. روش ارائه شده با پيش فرضهايي بر روي خواص حالات محيط و تأثير اقدامات عامل-الگوي مشابهي براي فضاي حالت در تأثير اقدامات عامل وجود داشته باشد- كاهش قابل ملاحظه اي در پيچيدگي محاسباتي و بالا بردن دقت تشخيص گذرگاه¬ها موجب ميشود. تأثيرات دقت تشخيص در نمودارهايي با بعضي از روشهاي مطرحي كه تاكنون ارائه شدهاند، نشان داده شده است. منطقي به نظر ميرسد نياز به رعايت اين پيش¬فرض با ارائه الگوريتمهايي كه اين خاصيت را در حالتها ارزيابي و استنتاج ميكنند، ميتواند رفع شود. زير اهداف استخراج شده در گام بعد در سيستمهاي چند عاملي همكار مورد استفاده قرار ميگيرند و نقش آنها در سرعت همگرايي و كاهش تعداد اقدامات مورد نياز براي عامل بررسي مي¬شود.
واژههاي كليدي: يادگيري تقويتي، يادگيري تقويتي سلسله مراتبي، سيستم¬هاي چند عامله، عامل¬هاي همكار، زير اهداف، تجريد، خوشه بندي.
-
لينک به اين مدرک :