• شماره ركورد
    17534
  • شماره راهنما(اين فيلد مربوط به كارشناس ميباشد لطفا آن را خالي بگذاريد)
    17534
  • پديد آورنده

    جهانبخش محمدي

  • عنوان
    شناسايي و استخراج اهداف مياني در يادگيري تقويتي
  • مقطع تحصيلي
    كارشناسي ارشد
  • رشته تحصيلي
    هوش مصنوعي
  • تاريخ دفاع
    آذر 1395
  • استاد راهنما
    دكتر ناصر مزيني
  • دانشكده
    كامپيوتر
  • چكيده
    چكيده عامل يادگيري تقويتي بر اساس مشاهدات خود از محيط در هر گام كنشي را انجام داده و يك سيگنال پاداش دريافت مي¬كند سپس بر اساس اين پاداش، رفتار خود را در درازمدت بهبود مي¬بخشد. اما با بزرگ شدن محيط پارامترهاي تصميم‌گيري نيز افزايش مي¬يابد و درنتيجه زمان يادگيري عامل بيشتر مي¬شود. يكي از راه¬هاي غلبه بر اين مشكل يادگيري مهارت در عامل¬هاي يادگيري تقويتي است. مهارت را مي‌توان به‌صورت مجموعه¬ايي از به‌صورت كنش پايه تعريف كرد. مزيت اصلي مهارت قابليت استفاده مجدد از آن است، بدين‌صورت كه عامل پس از يادگيري مي¬تواند آن را انتقال دهد يا درجايي ديگري استفاده كند. چارچوب‌هاي سلسله ‌مراتبي در يادگيري تقويتي به عامل كمك مي¬كنند تا مهارت¬ها را بهتر ياد‌بگيرد. در شيوه سنتي اين ساختارهاي سلسله ‌مراتبي از سوي طراح عامل به‌صورت دانش اوليه در عامل قرار داده مي¬شود كه براي محيط¬هاي بزرگ و از قبل ناشناخته اين كار غيرممكن است؛ بنابراين عامل يادگيري تقويتي بايد بتواند به‌صورت خودكار مهارت را ياد بگيرد. ازجمله روش¬هاي كسب مهارت، شناسايي اهداف مياني و ايجاد مهارت¬ها براساس آن¬ها است. در اين پايان‌‌نامه ما به كمك دستاوردهاي اخير در حوزه يادگيري عميق، اهداف مياني را شناسايي و استخراج كرده¬ايم. روش كار بدين‌صورت است كه با استفاده از توسعه يك الگوريتم يادگيري تقويتي عميق سياست عامل براي تعامل با محيط را پيدا‌كرده و به كمك آن گراف سياست را تشكيل داده‌ايم. در ادامه با استفاده از يك معيار مركزيت پل اهداف مياني را از گراف سياست استخراج كرده‌ايم. نتايج حاصل از الگوريتم پيشنهادي ما در دو محيط تاكسي و محيط چند اتاقه كه از محيط¬هاي استاندارد براي يادگيري مهارت هستند، نشان مي¬دهد كه اين الگوريتم به‌درستي اهداف مياني را شناسايي مي¬كند. همچنين نتايج الگوريتم پيشنهادي ما نشان مي‌دهد كه حتي بدون شناسايي اهداف مياني هم اين روش سرعت يادگيري عامل را تسريع مي‌كند. واژه‌هاي كليدي: يادگيري تقويتي، يادگيري عميق، يادگيري تقويتي عميق، ساختار سلسله مراتبي، اهداف مياني، شبكه عميق، شبكه كانولوشنال، گراف سياست
  • تاريخ ورود اطلاعات
    1396/04/03
  • تاريخ بهره برداري
    1/1/1900 12:00:00 AM
  • دانشجوي وارد كننده اطلاعات

    جهانبخش محمدي

  • چكيده به لاتين
    Abstract: The Reinforcement Learning (RL) agent based on its observation in each step selects an action and receives a reward signal then, according to this reward, its behavior improves in long time. But with environment’s dimension enlargement, decision making parameters also increase and therefore learning time increases. One solution to this problem is agent automatic learning skills. The skill is a set of primitive action. The main advantage of ability is to reuse skills therefore after learning these skills, the agent can transfer or use it somewhere else. Hierarchal frameworks help to learning agent to learn skills more efficiently. In traditional methods, these hierarchal frameworks are assumed as prior knowledge by designer. But this is impossible for large and unknown environments. So the reinforcement learning agent should be able to learn skills automatically. One method of skill learning is subgoal discovery and is to create skills based on its. In this thesis we use recent achievements in deep reinforcement learning for identification and extract subgoals. We have developed a deep reinforcement learning algorithm for learning agent’s policy in environment and then based on this we create a policy graph. Finally, by using bridge centrality subgoals are extracted. The results of proposed algorithm in taxi and room to room environment (these are standard environments for learning skills) show that this algorithm correctly identifies and extracts subgoals. Also results show that without skill acquisition proposed algorithm is able to accelerate learning. Keywords: Reinforcement Learning, Deep Reinforcement LearningHeirarichal Framework, Subgoal, Deep Network, Policy Graph, Convolotoinal Network, Bridge Centrality