اميرحسين شوروزي

عنوان

برنامه‌ريزي مجدد سير و حركت قطارهاي مسافري با استفاده از يادگيري تقويتي

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

مهندسي حمل و نقل ريلي

سال تحصيل

1401

تاريخ دفاع

1404/7/27

استاد راهنما

دكتر مسعود يقيني

استاد مشاور

دانشكده

مهندسي راه آهن

چكيده

پژوهش حاضر به مسئله برنامه‌ريزي مجدد حركت قطارهاي مسافري در مسيرهاي تك‌خطه در شرايط وقوع اختلال مي‌پردازد و هدف آن ارائه‌ي رويكردي هوشمند براي مديريت بلادرنگ ترافيك ريلي است. در اين تحقيق، از الگوريتم يادگيري تقويتي Q-Learning به‌عنوان جايگزيني براي روش‌هاي كلاسيك بهينه‌سازي مانند برنامه‌ريزي عدد صحيح مختلط (MILP) استفاده شده است تا بتوان در زمان كوتاه، تصميماتي نزديك به بهينه اتخاذ كرد و تأخير كلي شبكه را كاهش داد. در مدل پيشنهادي، مسئله زمان‌بندي مجدد به‌صورت يك فرآيند تصميم‌گيري ماركوف (MDP) مدل‌سازي شد كه شامل تعريف فضاي حالت، فضاي عمل و تابع پاداش بر مبناي تغييرات تأخير قطارها است. عامل يادگيرنده در هر تلاقي، با تعامل با محيط و دريافت پاداش منفي متناسب با تأخيرها، سياستي را مي‌آموزد كه ضمن جلوگيري از تضاد مسيرها، مجموع تأخيرها را به حداقل مي‌رساند. براي ارزيابي عملكرد مدل، چهار مقياس شبكه با اندازه‌هاي مختلف (5×5 تا 25×15 قطار و ايستگاه) شبيه‌سازي و نتايج با مدل MILP مقايسه شد. يافته‌ها نشان دادند كه در مقياس‌هاي كوچك، الگوريتم Q-Learning تنها 1٫3٪ اختلاف با جواب بهينه داشت و با افزايش ابعاد شبكه، اين اختلاف حداكثر به 5٫4٪ رسيد. بااين‌حال، زمان تصميم‌گيري RL در حد ميلي‌ثانيه باقي ماند (تا 37000 برابر سريع‌تر از MILP)، درحالي‌كه مدل MILP در شبكه‌هاي بزرگ‌تر به زمان‌هاي غيرعملياتي (بيش از 10 دقيقه) نياز داشت. اين نتايج بيانگر آن است كه يادگيري تقويتي مي‌تواند در شرايط واقعي، پاسخ‌هاي بسيار سريع و قابل‌قبولي ارائه دهد. در مجموع، تحقيق حاضر نشان مي‌دهد كه استفاده از Q-Learning براي زمان‌بندي مجدد حركت قطارها، ضمن حفظ دقت قابل‌قبول، سرعت پاسخ‌گويي بلادرنگ و مقياس‌پذيري بالايي فراهم مي‌آورد. پيشنهاد مي‌شود براي بهبود شكاف دقت باقي‌مانده، از يادگيري تقويتي عميق (DRL) در پژوهش‌هاي آتي استفاده شود تا ضمن حفظ سرعت بالا، پاسخ‌ها به بهينه مطلق نزديك‌تر شوند.

تاريخ ورود اطلاعات

1404/08/20

عنوان به انگليسي

Passenger Train Rescheduling using Reinforcement Learning

تاريخ بهره برداري

10/19/2026 12:00:00 AM

دانشجوي وارد كننده اطلاعات

اميرحسين شوروزي

Name: اميرحسين شوروزي
Author: اميرحسين شوروزي

چكيده به لاتين

This study addresses the train rescheduling problem in single-track railway networks under disruption conditions, aiming to develop an intelligent real-time traffic management framework. A Reinforcement Learning (RL) approach, specifically the Q-Learning algorithm, is employed as an alternative to classical optimization methods such as Mixed-Integer Linear Programming (MILP), which, despite providing optimal solutions, are computationally expensive an‎d unsuitable for real-time applications. The problem is formulated as a Markov Decision Process (MDP), including the definition of state space, action space, an‎d reward function based on variations in train delays. The learning agent interacts with the environment to minimize the total weighted delay by learning a policy that determines which train should proceed at each conflict point while preventing route conflicts. To eva‎luate model performance, four experimental railway networks of increasing scale (from 5 trains–5 stations to 25 trains–15 stations) were simulated an‎d compared with the MILP benchmark. Results show that in small networks, Q-Learning achieved only 1.3% deviation from the optimal MILP solution, an‎d this gap stabilized at about 5.4% for larger networks. However, the decision-making time of RL remained within milliseconds, up to 37,000 times faster than MILP, whose solution time exceeded ten minutes in large-scale scenarios. This demonstrates that the RL-based model can provide near-optimal, real-time responses, ensuring continuous railway operation even under significant disturbances. Overall, the proposed framework proves that Q-Learning-based rescheduling effectively balances accuracy an‎d computational efficiency, offering a practical an‎d scalable solution for real-time train traffic management. The findings suggest that extending this framework with Deep Reinforcement Learning (DRL) could further narrow the optimality gap while maintaining the exceptional computational speed, enabling advanced decision support systems for modern railway networks.

كليدواژه هاي فارسي

يادگيري تقويتي , برنامه ريزي مجدد حركت قطار , الگوريتم Q-Learning , زمان‌بندي Real-time , برنامه‌ريزي عدد صحيح مختلط (MILP) , بهينه‌سازي هوشمند

كليدواژه هاي لاتين

Reinforcement Learning , Train Rescheduling , Q-Learning Algorithm , Real-Time Scheduling , Mixed-Integer Linear Programming (MILP) , Intelligent Optimization

Author

Amirhosein Shorvazi

SuperVisor

Masoud Yaghini

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=33972&Field=0&DTC=6