شماره ركورد
17534
شماره راهنما(اين فيلد مربوط به كارشناس ميباشد لطفا آن را خالي بگذاريد)
17534
پديد آورنده
جهانبخش محمدي
عنوان
شناسايي و استخراج اهداف مياني در يادگيري تقويتي
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
هوش مصنوعي
تاريخ دفاع
آذر 1395
استاد راهنما
دكتر ناصر مزيني
دانشكده
كامپيوتر
چكيده
چكيده
عامل يادگيري تقويتي بر اساس مشاهدات خود از محيط در هر گام كنشي را انجام داده و يك سيگنال پاداش دريافت مي¬كند سپس بر اساس اين پاداش، رفتار خود را در درازمدت بهبود مي¬بخشد. اما با بزرگ شدن محيط پارامترهاي تصميمگيري نيز افزايش مي¬يابد و درنتيجه زمان يادگيري عامل بيشتر مي¬شود. يكي از راه¬هاي غلبه بر اين مشكل يادگيري مهارت در عامل¬هاي يادگيري تقويتي است. مهارت را ميتوان بهصورت مجموعه¬ايي از بهصورت كنش پايه تعريف كرد. مزيت اصلي مهارت قابليت استفاده مجدد از آن است، بدينصورت كه عامل پس از يادگيري مي¬تواند آن را انتقال دهد يا درجايي ديگري استفاده كند.
چارچوبهاي سلسله مراتبي در يادگيري تقويتي به عامل كمك مي¬كنند تا مهارت¬ها را بهتر يادبگيرد. در شيوه سنتي اين ساختارهاي سلسله مراتبي از سوي طراح عامل بهصورت دانش اوليه در عامل قرار داده مي¬شود كه براي محيط¬هاي بزرگ و از قبل ناشناخته اين كار غيرممكن است؛ بنابراين عامل يادگيري تقويتي بايد بتواند بهصورت خودكار مهارت را ياد بگيرد. ازجمله روش¬هاي كسب مهارت، شناسايي اهداف مياني و ايجاد مهارت¬ها براساس آن¬ها است.
در اين پاياننامه ما به كمك دستاوردهاي اخير در حوزه يادگيري عميق، اهداف مياني را شناسايي و استخراج كرده¬ايم. روش كار بدينصورت است كه با استفاده از توسعه يك الگوريتم يادگيري تقويتي عميق سياست عامل براي تعامل با محيط را پيداكرده و به كمك آن گراف سياست را تشكيل دادهايم. در ادامه با استفاده از يك معيار مركزيت پل اهداف مياني را از گراف سياست استخراج كردهايم.
نتايج حاصل از الگوريتم پيشنهادي ما در دو محيط تاكسي و محيط چند اتاقه كه از محيط¬هاي استاندارد براي يادگيري مهارت هستند، نشان مي¬دهد كه اين الگوريتم بهدرستي اهداف مياني را شناسايي مي¬كند. همچنين نتايج الگوريتم پيشنهادي ما نشان ميدهد كه حتي بدون شناسايي اهداف مياني هم اين روش سرعت يادگيري عامل را تسريع ميكند.
واژههاي كليدي: يادگيري تقويتي، يادگيري عميق، يادگيري تقويتي عميق، ساختار سلسله مراتبي، اهداف مياني، شبكه عميق، شبكه كانولوشنال، گراف سياست
تاريخ ورود اطلاعات
1396/04/03
تاريخ بهره برداري
1/1/1900 12:00:00 AM
دانشجوي وارد كننده اطلاعات
جهانبخش محمدي
چكيده به لاتين
Abstract:
The Reinforcement Learning (RL) agent based on its observation in each step selects an action and receives a reward signal then, according to this reward, its behavior improves in long time. But with environment’s dimension enlargement, decision making parameters also increase and therefore learning time increases. One solution to this problem is agent automatic learning skills. The skill is a set of primitive action. The main advantage of ability is to reuse skills therefore after learning these skills, the agent can transfer or use it somewhere else.
Hierarchal frameworks help to learning agent to learn skills more efficiently. In traditional methods, these hierarchal frameworks are assumed as prior knowledge by designer. But this is impossible for large and unknown environments. So the reinforcement learning agent should be able to learn skills automatically. One method of skill learning is subgoal discovery and is to create skills based on its.
In this thesis we use recent achievements in deep reinforcement learning for identification and extract subgoals. We have developed a deep reinforcement learning algorithm for learning agent’s policy in environment and then based on this we create a policy graph. Finally, by using bridge centrality subgoals are extracted.
The results of proposed algorithm in taxi and room to room environment (these are standard environments for learning skills) show that this algorithm correctly identifies and extracts subgoals. Also results show that without skill acquisition proposed algorithm is able to accelerate learning.
Keywords:
Reinforcement Learning, Deep Reinforcement LearningHeirarichal Framework, Subgoal, Deep Network, Policy Graph, Convolotoinal Network, Bridge Centrality