-
شماره ركورد
12573
-
شماره راهنما(اين فيلد مربوط به كارشناس ميباشد لطفا آن را خالي بگذاريد)
12573
-
پديد آورنده
حميده سروري كاريزكي
-
عنوان
...بكارگيري يادگيري تقويتي پيوسته در طراحي خودكار سامانه هاي رفتار محور
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
كامپيوتر گرايش هوش مصنوعي و رباتيك
-
سال تحصيل
آبان 1392
-
تاريخ دفاع
آبان 1392
-
استاد راهنما
دكتر مزيني
-
چكيده
چكيده
كنترل رفتارمحور روشي توزيع شده براي كنترل ربات است. اين روش وظيفه اصلي كنترل را به تعدادي زيروظيفه مي¬شكند و مسئوليت به انجام رساندن هر يك از زير وظايف را به عهده يك رفتار مي¬گذارد. از آنجا كه رفتارها به صورت موازي و همزمان عمل مي¬كنند، ممكن است در هر حالت، خروجي چندين رفتار فعال شود، لذا طراحي هماهنگ¬ساز رفتار ، مهم ترين چالش اين سامانه¬هاست. طراحي سامانه¬هاي رفتارمحور شامل طراحي رفتار و هماهنگ¬ساز است و از آنجا كه اين فرآيند، دشوار و همراه با سعي و خطاست، طراحي خودكار اين سامانه¬ها ضروري به نظر مي¬رسد.
در اين پژوهش از يادگيري تقويتي براي طراحي سامانه¬هاي رفتارمحور استفاده شده است. يادگيري تقويتي يك روش يادگيري بدون ناظر است كه علي¬رغم مزاياي بسيارش، به دليل مشكل نفرين ابعاد به ندرت براي طراحي سامانه¬هاي رفتارمحور استفاده شده است.
در اين پژوهش، انتزاعي¬سازي حالت به وسيله رفتارها در كنار به كارگيري روش الكتره 3 راهگشاي حل مسئله نفرين ابعاد است. در روش پيشنهادي يك معماري چندسطحي به كار گرفته شده است كه در آن هر رفتار كه يك يادگير تقويتي Q است، در سطح پايين¬تر، اطلاعاتي در قالب جداول Q در اختيار سطح بالاتر قرار مي¬دهد. در سطح بالاتر، روش الكتره 3 كه روشي براي حل مسائل تصميم¬گيري چندمعياره است، زيرمجموعه اي از اطلاعات انتزاعي را در اختيار هماهنگ¬ساز رفتار قرار مي¬دهد. اين هماهنگ¬ساز با يادگيري تقويتي پيوسته پياده¬سازي مي¬شود و بر اساس اطلاعات انتزاعي نهايي در محيط عمل مي¬كند.
در اين پژوهش با تكيه بر مفهوم رفتار، فضاي اعمال نيز در كنار فضاي حالات انتزاعي مي شود.
روش پيشنهادي بر روي مسئله جمع آوري غذا، پياده سازي شده است. از آنجا كه فضاي حالت اين مسئله بسيار بزرگ است، يادگيري تقويتي گسسته، براي يادگيري آن با شكست روبرو مي شود. نتايج شبيه سازي نشان دهنده كارآمدي ساختار پيشنهادي است. اين كارآمدي بصورت سرعت بخشيدن به فرآيند يادگيري و افزايش كارايي عامل است.
واژه هاي كليدي: كنترل رفتارمحور، يادگيري تقويتي پيوسته، انتزاع، هماهنگ¬ساز رفتار، تصميم گيري با معيارهاي چندگانه، روش الكتره 3.
-
لينک به اين مدرک :