شماره ركورد
33967
پديد آورنده
محمد حيدري
عنوان
بهينهسازي تركيبي زمانبندي و تركيب قطارهاي مترو با استفاده از يادگيري تقويتي عميق و الگوريتم بهينهسازي سياست مجاور
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
مهندسي حمل و نقل ريلي
سال تحصيل
1401
تاريخ دفاع
1404/7/27
استاد راهنما
دكتر مسعود يقيني
استاد مشاور
دكتر مسعود يقيني
دانشكده
راه آهن
چكيده
بهينهسازي بهرهبرداري در سيستمهاي حملونقل ريلي شهري، بهويژه در خطوط مترو، يكي از چالشهاي اساسي در مديريت تقاضاي پويا و مصرف انرژي است. در اين پژوهش، يك مدل هوشمند براي زمانبندي تطبيقي حركت قطارها و تركيب واگنها ارائه شده است كه بر ¬پايهي الگوريتم يادگيري تقويتي عميق با روش بهينهسازي سياست مجانبي (PPO) توسعه يافته است.
در اين مدل، مسألهي زمانبندي و تركيب قطار بهصورت يك فرايند تصميمگيري ماركوفي (MDP) فرموله شده است، كه در آن عامل يادگيرنده با توجه به وضعيت جاري سيستم، شامل سطح تقاضاي مسافران، ظرفيت قطارها و فواصل حركت، اقدام به انتخاب بهينهي دو متغير كليدي «فاصلهي حركت» و «تعداد واگنها» ميكند.
تابع پاداش مدل بر اساس تركيبي از هزينههاي انتظار مسافر، مصرف انرژي و تغيير تركيب قطار طراحي شده است تا توازن ميان كيفيت خدمات و هزينههاي بهرهبرداري برقرار گردد. نتايج شبيهسازي نشان ميدهد كه مدل پيشنهادي توانسته است در مقايسه با روشهاي سنتي، منجر به كاهش زمان انتظار، افزايش نرخ سرويسدهي و بهبود كارايي انرژي شود.
اين پژوهش با ارائهي چارچوبي نوين براي استفاده از الگوريتمهاي يادگيري تقويتي در بهينهسازي عمليات مترو، گامي مؤثر در جهت هوشمندسازي سيستمهاي حملونقل شهري برداشته است.
تاريخ ورود اطلاعات
1404/08/19
عنوان به انگليسي
Hybrid optimization of metro train scheduling and composition using deep reinforcement learning and proximal policy optimization algorithm
تاريخ بهره برداري
10/19/2026 12:00:00 AM
دانشجوي وارد كننده اطلاعات
محمد حيدري
چكيده به لاتين
Optimization of operation in urban rail transportation systems, especially in metro lines, is one of the fundamental challenges in managing dynamic demand and energy consumption. In this research, an intelligent model for adaptive train scheduling and wagon composition is presented, which is developed based on a deep reinforcement learning algorithm with asymptotic policy optimization (PPO) method.
In this model, the train scheduling and composition problem is formulated as a Markov decision process (MDP), in which the learning agent, considering the current state of the system — including passenger demand level, train capacity and travel distances — makes an optimal choice of two key variables:
Headway and number of wagons (Train Composition).
The model reward function is designed based on a combination of passenger waiting costs, energy consumption and train composition changes to establish a balance between service quality and operating costs. Simulation results show that the proposed model has been able to reduce waiting time, increase service rate, and improve energy efficiency compared to traditional methods.
This research has taken an effective step towards making urban transportation systems smarter by providing a new framework for using reinforcement learning algorithms in optimizing subway operations.
كليدواژه هاي فارسي
يادگيري تقويتي عميق، بهينهسازي سياست مجانبي (PPO)، زمانبندي تطبيقي مترو، تركيب قطار، بهرهبرداري هوشمند، تقاضاي پويا
كليدواژه هاي لاتين
Deep reinforcement learning, asymptotic policy optimization (PPO), adaptive subway scheduling, train composition, smart operation, dynamic demand
Author
mohammad heydary
SuperVisor
masoud yaghini