• شماره ركورد
    9916
  • شماره راهنما(اين فيلد مربوط به كارشناس ميباشد لطفا آن را خالي بگذاريد)
    9916
  • پديد آورنده

    بهزاد غضنفري

  • عنوان
    استفاده از زير اهداف براي بهبود كارايي يادگيري تقويتي در سيستم‌هاي چند عامله
  • مقطع تحصيلي
    درجه كارشناسي ارشد
  • رشته تحصيلي
    مهندسي كامپيوتر گرايش هوش مصنوعي و رباتيك
  • سال تحصيل
    اسفند ماه 1390
  • تاريخ دفاع
    اسفند ماه 1390
  • استاد راهنما
    دكتر ناصر مزيني دكتر محمد رضا جاهد مطلق
  • چكيده
    چكيده يادگيري تقويتي (RL) را مي¬توان به اين شكل تعريف كرد كه عامل بر اساس آزمايش و خطا درصدد است كه چه اقدام¬هايي را انجام دهد به گونه¬اي كه مجموع سيگنال¬هاي پاداش عددي كه دريافت مي¬كند، ماكزيمم شود. دو مشخصه «جستجوي مبتني بر آزمايش و خطا، و پاداش تأخير يافته» از مهم‌ترين ويژگي¬هاي متمايز كننده يادگيري تقويتي از ساير روش¬هاي يادگيري هستند. يادگيري تقويتي داراي مشكل مقياس پذيري در محيط¬هاي با ابعاد بالا است به عبارت ديگر براي عامل يادگيري تقويتي مسئله نفرين ابعاد (معضل ابعاد بالا) وجود دارد. يكي از راهكار¬هاي مقابله با اين چالش استفاده از يادگيري تقويتي سلسله مراتبي و چارچوب SMDP است. يك مسئله اصلي در يادگيري تقويتي سلسله مراتبي ايجاد اقدامات گسترش يافته زماني يا چگونگي شكستن وظيفه اصلي به زير وظايف به صورت اتوماتيك است. براي ايجاد اقدامات گسترش داده شده زماني نياز به تعيين زير اهداف داريم. اينكه زير اهداف به صورت اتوماتيك در مسائل مختلف تعيين شوند، يك چالش جدي براي يادگيري تقويتي است. تشخيص دقيق آن‌ها نقش بسزايي در بالا بردن سرعت همگرايي به خط مشي بهينه و كارايي انتقال دانش را دارد. براي استخراج گذرگاه¬ها در يادگيري تقويتي تاكنون روش‌هاي گوناگوني مطرح شده است. اين روش‌ها عموماً داراي پيچيدگي زماني بالا و هم چنين نيازمند دانش طراح هستند تا بتوانند گذرگاه‌ها را استخراج كنند. علاوه بر اين، براي اينكه بتوانند گذرگاه‌ها را استخراج كنند نيازمند رعايت شرط‌هايي در محيط هستند. در يادگيري تقويتي از آنجايي كه تاكيد زيادي بر ناشناخته بودن محيط و كمك نگرفتن از طراح وجود دارد سعي بر اين است كه تا حد ممكن نياز به دانش قبلي را كاهش دهيم (خود مختاري عامل را تقويت كنيم). علاوه بر اين، هر چه وابستگي الگوريتم به نوع و خواص محيط كاهش پيدا كند، الگوريتم‌هاي مقاومي را در حقيقت ايجاد كرده‌ايم. تعداد محدودي از روش‌هايي كه تاكنون ارائه شده‌اند قادر به استخراج هر دو نوع گذرگاه¬هاي ارزش و ساختار در شيوه هاي غير همزمان و همزمان هستند. روش ارائه شده با پيش فرض‌هايي بر روي خواص حالات محيط و تأثير اقدامات عامل-الگوي مشابهي براي فضاي حالت در تأثير اقدامات عامل وجود داشته باشد- كاهش قابل ملاحظه اي در پيچيدگي محاسباتي و بالا بردن دقت تشخيص گذرگاه¬ها موجب مي‌شود. تأثيرات دقت تشخيص در نمودارهايي با بعضي از روش‌هاي مطرحي كه تاكنون ارائه شده‌اند، نشان داده شده است. منطقي به نظر مي‌رسد نياز به رعايت اين پيش¬فرض با ارائه الگوريتم‌هايي كه اين خاصيت را در حالت‌ها ارزيابي و استنتاج مي‌كنند، مي‌تواند رفع شود. زير اهداف استخراج شده در گام بعد در سيستم‌هاي چند عاملي همكار مورد استفاده قرار مي‌گيرند و نقش آن‌ها در سرعت همگرايي و كاهش تعداد اقدامات مورد نياز براي عامل بررسي مي¬شود. واژه‌هاي كليدي: يادگيري تقويتي، يادگيري تقويتي سلسله مراتبي، سيستم¬هاي چند عامله، عامل¬هاي همكار، زير اهداف، تجريد، خوشه بندي.