شماره ركورد
19781
شماره راهنما(اين فيلد مربوط به كارشناس ميباشد لطفا آن را خالي بگذاريد)
۱۹۷۸۱
پديد آورنده
حامد زارعي
عنوان
پيشبيني تأخير قطارهاي مسافري با استفاده از تكنيكهاي دادهكاوي
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
مهندسي راه آهن
سال تحصيل
۱۳۹۷
تاريخ دفاع
۱۳۹۷/۰۹/۱۴
استاد راهنما
دكتر مسعود يقيني
دانشكده
راه آهن
چكيده
تأخير قطارهاي مسافري از مهمترين چالشهاي سيسـتمهاي ريلـي درتمام دنيا به شمار ميآيد كه هزينههاي زيادي را براي مسافران و همچنين اپراتورها اعمال ميكند و باعث ناكارآمدي عمليات قطارها ميشود. هدف از انجام اين تحقيق، پيشبيني تأخير قطارهاي مسافري در راهآهن جمهوري اسلامي ايران با استفاده از تكنيكهاي دادهكاوي ميباشد. از نتايج اين پروژه در طراحي جداول زماني قطارهاي مسافري استفاده ميشود. براي اين منظور، مراحل متدولوژي دادهكاوي CRISP-DM به كار گرفته شده است. دادههاي مورد استفاده در اين تحقيق شامل پايگاه داده تأخير قطارهاي مسافري از سال 92 تا 96 است كه شامل 319.081 ركورد تأخير ميباشد. فرآيند آمادهسازي دادهها شامل يكپارچهسازي دادههاي تاخير قطار، اصلاحات اشتباهات تايپي مقادير فيلدهاي پايگاه داده، افزودن ويژگيهاي جديد به پايگاه داده، تبديلات بر روي بعضي از فيلدهاي پايگاه داده و پاكسازي دادههاي پرت ميباشد. متغيرهاي مستقل جهت پيشبيني شامل سال، ماه، روز، روز هفته، ساعت حركت، محورهاي حركت، نوع قطار، نوع سالن، مبدا و مقصد قطار و همچنين نام مالك قطار ميباشند. مدلسازي پيشبيني تأخير قطار به دو صورت عددي و طبقهاي بر روي كل پايگاه داده در نرمافزار SPSS Modeler 18.0 انجام شده است. جهت پيشبيني طبقهاي، دادههاي تاخير با استفاده از روش خوشهبندي TwoStep گسستهسازي شدهاند. از دو روش شبكه عصبي و C5.0 جهت پيشبيني طبقهاي و سه روش رگرسيون، CHAID و شبكه عصبي براي پيشبيني عددي استفاده شده است. براي پيشگيري از بيشبرازش مدل با مشخصات دادههاي آموزشي، دادهها به دو قسمت دادههاي آموزشي و دادههاي آزمايشي تقسيم شدهاند. براي ارزيابي نتايج پيشبيني، دو مدل ساخته شده است، اولين مدل بر اساس دادههاي سالهاي 92 تا 95 آموزش ميبيند و به پيشبيني تاخير براي دادههاي سال 96 ميپردازد. در مدل دوم، 75% دادهها را مجموعه آموزشي و 25% را مجموعه آزمايشي تشكيل ميدهند. نتايج نشان ميدهد كه در پيش بيني عددي، روش شبكه عصبي و در پيشبيني به صورت طبقهاي، روش C5.0 از دقت بالاتري نسبت به ساير روشها برخوردار هستند، لذا از اين دو تكنيك براي پيشبيني تاخير قطارهاي سال 97 استفاده شده است. در انتها، پيشبيني عددي به صورت گروهبندي بر روي ركوردهاي پايگاه داده نيز انجام شده است. نتايج نشان ميدهد كه دقت پيشبيني به صورت گروهبندي بالاتر از زماني است كه پيشبيني بر روي كل پايگاه داده صورت ميگيرد.
تاريخ ورود اطلاعات
1397/09/20
عنوان به انگليسي
Railway Passenger Train Delay Prediction via Data Mining Methods
تاريخ بهره برداري
12/10/2018 12:00:00 AM
دانشجوي وارد كننده اطلاعات
حامد زارعي
چكيده به لاتين
Passenger Train Delays are among the most important challenges for rail systems around the world. Train delays impose a huge cost on passengers and operators, contributing to the inefficiency of train operations. The aim of this research is to predict passenger train delays in Iranian Railways using Data Mining techniques. The results of this project are used to design train timetables. The CRISP-DM data mining methodology is used for this project.
The data used in this study includes a database of passenger train delays from 2013 to 2017, including 319,081 records.
The data preparation process involves integrating train delays data, correcting mistakes of the database fields, adding new features to the database and removing Outliers. Independent variables for prediction model include year, month, day, day of the week, departure time, axis, train type, car type, origin and destination of the train and the train owner.
In order to model prediction of train delay, two kind of prediction, named Numerical and Classification are used on entire database in Spss Modeler 18.0. Neural network and C5.0 methods are used for classification prediction. The TwoStep clustering method is used to divide the delay field into three labels. Regression, CHAID and neural network methods are used for numerical prediction. To evaluate prediction results, we divide existing passenger train delays data set into two subsets called training set and test set, in which 75% of the data is the training set and 25% is the test set. The results show that in numerical prediction, neural network method and in prediction by classification, C5.0 method has higher accuracy than other methods, therefore, these two techniques have been used to predict the train delays of year 2018. Numerical prediction is used by grouping some database fields. The results show that the prediction by grouping has higher accuracy than the prediction for the entire database.