شماره ركورد
8602
عنوان
بررسي كاربردهاي يادگيري تقويتي در كنترل فرآيندهاي صنعتي
سال تحصيل
1398-1400
استاد راهنما
دكتر سيد مجيد اسماعيل زاده
چکيده
اهداف اصلي كنترل فرآيندهاي صنعتي انجام فرآيند در شرايط عملياتي مورد نظر براي حصول نتيجه مناسب با
در نظر گرفتن شرايط اقتصادي، ايمني، زيست محيطي و … است. با توجه به دستاوردهاي يادگيري تقويتي و
شباهت وظايف و عملكردهاي آن با مسائل كنترل فرآيند تحقيقات و مطالعات زيادي انجام گرفته است تا از اين
دستاوردها در زمينه كنترل فرآيندهاي صنعتي نيز استفاده شود.از ديدگاه مهندسي كنترل يادگيري تقويتي داراي
چند ويژگي بسيار جذاب از جمله ماهيت عملكرد بهينه آن، قابليت تطبيق پذيري با محيط، حجم محاسبات برخط
كم و عدم نياز به مدلسازي است. با يك ديدكلي ميتوان گفت در تمام لايه هاي هرم كنترل فرآيند امكان استفاده
از قابليتهاي يادگيري تقويتي وجود دارد كه از مهمترين آنها ميتوان به طراحي كنترل كننده،تنظيم ضرايب
كنترلكننده ها ، شناسايي عيب در واحدهاي فرآيند و تعيين شاخصهاي عملياتي اشاره كرد. بيشتر تحقيقات
صورت گرفته د ر اين حوزه در حال حاضر در فاز شبيه سازي هستند و تا پياده سازي عملي فاصله وجود دارد.جهت
پيمودن اين فاصله نياز به ملاحظات ويژهاي از جمله بحث پيرامون پايداري، توجه به قيود فيزيكي مسئله و
افزايش سرعت يادگيري مي باشد. علاوه بر اين پرداختن به مسائل با ديدگاه فضاي حالت و عمل پيوسته مستلزم
استفاده از توابع تقريب در كنار يادگيري تقويتي است. از جمله مهمترين توابع تقريب مورد استفاده شبكه هاي
عصبي هستند. يادگيري تقويتي عميق يكي از كاملترين ساختارهاي اين حوزه است كه از قابليتهاي شبكه عصبي
عميق در كنار يادگيري تقويتي استفاده مينمايد. در پايان خاطر نشان ميكنيم يادگيري تقويتي افقهاي جديدي را
در حوزه كنترل فرآيند صنعتي گشوده است كه در آيندهاي نه چندان دور شاهد استفاده گسترده از اين تكنولوژي
در تمامي قسمتهاي فرآيندهاي صنعتي خواهيم بود.
نام دانشجو
عليرضا اطلاعي
تاريخ ارائه
5/29/2021 12:00:00 AM
متن كامل
71669
پديد آورنده
عليرضا اطلاعي
تاريخ ورود اطلاعات
1400/04/11
عنوان به انگليسي
Investigation of reinforcement learning applications in industrial process control
كليدواژه هاي فارسي
يادگيري تقويتي , كنترل فرآيندهاي صنعتي , سياست بهينه تطبيقي
كليدواژه هاي لاتين
reinforcement learning , industrial process control , Optimal adaptive policy