-
شماره ركورد
20480
-
شماره راهنما(اين فيلد مربوط به كارشناس ميباشد لطفا آن را خالي بگذاريد)
۲۰۴۸۰
-
پديد آورنده
سيد اميد داودي
-
عنوان
كشف و بهره برداري از مهارت هاي غير وابسته به وضعيت محيط در يادگيري تقويتي سلسله مراتبي
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
هوش مصنوعي و رباتيكز
-
سال تحصيل
۱۳۹۵
-
تاريخ دفاع
۱۳۹۸/۲/۱۸
-
استاد راهنما
دكتر ناصر مزيني
-
دانشكده
كامپيوتر
-
چكيده
يادگيري تقويتي سلسله مراتبي نوعي يادگيري تقويتي است كه براي مقابله با نفرين ابعاد و افزايش سرعت يادگيري استفاده ميشود. در يادگيري تقويتي سلسله مراتبي، سطوح انتزاع زماني يا فضايي در مسئله تعريف شده و عامل با استفاده از اين سطوح انتزاع، كه به آنها مهارت نيز گفته ميشود، سعي در حل مسئله خواهد داشت.
عمده روشهاي ارائه شده براي يادگيري تقويتي سلسله مراتبي در صدد كشف اهداف مياني مناسب هستند به طوري كه بتوان مهارتهايي سطح بالا براي رسيدن به اين اهداف مياني تعريف نمود. اين رويكرد، تنها بخشي از مجموعه سطوح انتزاع ممكن براي يادگيري تقويتي سلسله مراتبي را در بر ميگيرد. به طور مشخص، گروهي از سطوح انتزاع زماني احتمالي كه هيچ ارتباطي با وضعيت محيط ندارند در قالب روشهاي مرسوم يادگيري تقويتي سلسله مراتبي قابل مدلسازي نميگنجند.
در اين پژوهش روشي براي تعريف، استفاده و كشف خودكار مهارتهاي غير وابسته به وضعيت محيط در مسائل چندهدفه در يادگيري تقويتي سلسله مراتبي ارائه شده است. آزمايشهاي انجام شده بر روي چندين محيط يادگيري تقويتي، نشان ميدهد كه سطوح انتزاع زماني غير وابسته به وضعيت محيط با اعمال تغييرات اندك بر روي مسئله ميتوانند در تسريع سرعت يادگيري تقويتي مؤثر باشند.
-
تاريخ ورود اطلاعات
1398/02/24
-
عنوان به انگليسي
Discovery and Utilization of Skills Independent of Environement State in Hierarchical Reinforcement Learning
-
تاريخ بهره برداري
5/8/2019 12:00:00 AM
-
دانشجوي وارد كننده اطلاعات
سيداميد داودي
-
چكيده به لاتين
Hierarchical Reinforcement Learning is a variant of reinforcement learning which is used to combat the curse of dimensionality and increase the training speed. In hierarchical reinforcement learning, temporal or spatial abstractions, usually refrerred to as Skills, are defined in the context of the problem so that the agent can utilize them to solve the problem.
Most of the proposed methods in hierarchical reinforcement learning attempt to find useful sub-goals in the environment and define new skills pertaining to reaching these sub-goals. This approach only considers a fraction of the possible skills that can be defined in a reinforcement learning problem. In particular, state-independent skills cannot be modeled in this manner in the majority of hierarchical reinforcement learning methods.
This research proposes an approach to define, discover and utilize state-indepenedent skills in multi-task reinforcement learning problems. The tests that are done on a number of different reinforcement learning environments show that state-independent temporal abstractions can improve training speed with very little change in the structure of the problem or the base reinforcement learning method used to solve it.
-
لينک به اين مدرک :