شماره ركورد
33972
پديد آورنده
اميرحسين شوروزي
عنوان
برنامهريزي مجدد سير و حركت قطارهاي مسافري با استفاده از يادگيري تقويتي
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
مهندسي حمل و نقل ريلي
سال تحصيل
1401
تاريخ دفاع
1404/7/27
استاد راهنما
دكتر مسعود يقيني
استاد مشاور
-
دانشكده
مهندسي راه آهن
چكيده
پژوهش حاضر به مسئله برنامهريزي مجدد حركت قطارهاي مسافري در مسيرهاي تكخطه در شرايط وقوع اختلال ميپردازد و هدف آن ارائهي رويكردي هوشمند براي مديريت بلادرنگ ترافيك ريلي است. در اين تحقيق، از الگوريتم يادگيري تقويتي Q-Learning بهعنوان جايگزيني براي روشهاي كلاسيك بهينهسازي مانند برنامهريزي عدد صحيح مختلط (MILP) استفاده شده است تا بتوان در زمان كوتاه، تصميماتي نزديك به بهينه اتخاذ كرد و تأخير كلي شبكه را كاهش داد. در مدل پيشنهادي، مسئله زمانبندي مجدد بهصورت يك فرآيند تصميمگيري ماركوف (MDP) مدلسازي شد كه شامل تعريف فضاي حالت، فضاي عمل و تابع پاداش بر مبناي تغييرات تأخير قطارها است. عامل يادگيرنده در هر تلاقي، با تعامل با محيط و دريافت پاداش منفي متناسب با تأخيرها، سياستي را ميآموزد كه ضمن جلوگيري از تضاد مسيرها، مجموع تأخيرها را به حداقل ميرساند. براي ارزيابي عملكرد مدل، چهار مقياس شبكه با اندازههاي مختلف (5×5 تا 25×15 قطار و ايستگاه) شبيهسازي و نتايج با مدل MILP مقايسه شد. يافتهها نشان دادند كه در مقياسهاي كوچك، الگوريتم Q-Learning تنها 1٫3٪ اختلاف با جواب بهينه داشت و با افزايش ابعاد شبكه، اين اختلاف حداكثر به 5٫4٪ رسيد. بااينحال، زمان تصميمگيري RL در حد ميليثانيه باقي ماند (تا 37000 برابر سريعتر از MILP)، درحاليكه مدل MILP در شبكههاي بزرگتر به زمانهاي غيرعملياتي (بيش از 10 دقيقه) نياز داشت. اين نتايج بيانگر آن است كه يادگيري تقويتي ميتواند در شرايط واقعي، پاسخهاي بسيار سريع و قابلقبولي ارائه دهد. در مجموع، تحقيق حاضر نشان ميدهد كه استفاده از Q-Learning براي زمانبندي مجدد حركت قطارها، ضمن حفظ دقت قابلقبول، سرعت پاسخگويي بلادرنگ و مقياسپذيري بالايي فراهم ميآورد. پيشنهاد ميشود براي بهبود شكاف دقت باقيمانده، از يادگيري تقويتي عميق (DRL) در پژوهشهاي آتي استفاده شود تا ضمن حفظ سرعت بالا، پاسخها به بهينه مطلق نزديكتر شوند.
تاريخ ورود اطلاعات
1404/08/20
عنوان به انگليسي
Passenger Train Rescheduling using Reinforcement Learning
تاريخ بهره برداري
10/19/2026 12:00:00 AM
دانشجوي وارد كننده اطلاعات
اميرحسين شوروزي
چكيده به لاتين
This study addresses the train rescheduling problem in single-track railway networks under disruption conditions, aiming to develop an intelligent real-time traffic management framework. A Reinforcement Learning (RL) approach, specifically the Q-Learning algorithm, is employed as an alternative to classical optimization methods such as Mixed-Integer Linear Programming (MILP), which, despite providing optimal solutions, are computationally expensive and unsuitable for real-time applications. The problem is formulated as a Markov Decision Process (MDP), including the definition of state space, action space, and reward function based on variations in train delays. The learning agent interacts with the environment to minimize the total weighted delay by learning a policy that determines which train should proceed at each conflict point while preventing route conflicts.
To evaluate model performance, four experimental railway networks of increasing scale (from 5 trains–5 stations to 25 trains–15 stations) were simulated and compared with the MILP benchmark. Results show that in small networks, Q-Learning achieved only 1.3% deviation from the optimal MILP solution, and this gap stabilized at about 5.4% for larger networks. However, the decision-making time of RL remained within milliseconds, up to 37,000 times faster than MILP, whose solution time exceeded ten minutes in large-scale scenarios. This demonstrates that the RL-based model can provide near-optimal, real-time responses, ensuring continuous railway operation even under significant disturbances.
Overall, the proposed framework proves that Q-Learning-based rescheduling effectively balances accuracy and computational efficiency, offering a practical and scalable solution for real-time train traffic management. The findings suggest that extending this framework with Deep Reinforcement Learning (DRL) could further narrow the optimality gap while maintaining the exceptional computational speed, enabling advanced decision support systems for modern railway networks.
كليدواژه هاي فارسي
يادگيري تقويتي , برنامه ريزي مجدد حركت قطار , الگوريتم Q-Learning , زمانبندي Real-time , برنامهريزي عدد صحيح مختلط (MILP) , بهينهسازي هوشمند
كليدواژه هاي لاتين
Reinforcement Learning , Train Rescheduling , Q-Learning Algorithm , Real-Time Scheduling , Mixed-Integer Linear Programming (MILP) , Intelligent Optimization
Author
Amirhosein Shorvazi
SuperVisor
Masoud Yaghini