• شماره ركورد
    19781
  • شماره راهنما(اين فيلد مربوط به كارشناس ميباشد لطفا آن را خالي بگذاريد)
    ۱۹۷۸۱
  • پديد آورنده

    حامد زارعي

  • عنوان
    پيش‌بيني تأخير قطارهاي مسافري با استفاده از تكنيك‌هاي داده‌كاوي‌
  • مقطع تحصيلي
    كارشناسي ارشد
  • رشته تحصيلي
    مهندسي راه آهن
  • سال تحصيل
    ۱۳۹۷
  • تاريخ دفاع
    ۱۳۹۷/۰۹/۱۴
  • استاد راهنما
    دكتر مسعود يقيني
  • دانشكده
    راه آهن
  • چكيده
    تأخير قطارهاي مسافري از مهمترين چالش‌هاي سيسـتم‌هاي ريلـي درتمام دنيا به شمار مي‌آيد كه هزينه‌هاي زيادي را براي مسافران و همچنين اپراتورها اعمال مي‌كند و باعث ناكارآمدي عمليات قطارها مي‌شود. هدف از انجام اين تحقيق، پيش‌بيني تأخير قطارهاي مسافري در راه‌آهن جمهوري اسلامي ايران با استفاده از تكنيك‌هاي داده‌كاوي مي‌باشد. از نتايج اين پروژه در طراحي جداول زماني قطارهاي مسافري استفاده مي‌شود. براي اين منظور، مراحل متدولوژي داده‌كاوي CRISP-DM به كار گرفته شده است. داده‌هاي مورد استفاده در اين تحقيق شامل پايگاه داده تأخير قطارهاي مسافري از سال‌ 92 تا 96 است كه شامل 319.081 ركورد تأخير مي‌باشد. فرآيند آماده‌سازي داده‌ها شامل يكپارچه‌سازي داده‌هاي تاخير قطار، اصلاحات اشتباهات تايپي مقادير فيلدهاي پايگاه داده، افزودن ويژگي‌هاي جديد به پايگاه داده، تبديلات بر روي بعضي از فيلدهاي پايگاه داده و پاكسازي داده‌هاي پرت مي‌باشد. متغيرهاي مستقل جهت پيش‌بيني شامل سال، ماه، روز، روز هفته‌، ساعت حركت، محورهاي حركت، نوع قطار، نوع سالن، مبدا و مقصد قطار و همچنين نام مالك قطار مي‌باشند. مدلسازي پيش‌بيني تأخير قطار به دو صورت عددي و طبقه‌اي بر روي كل پايگاه داده در نرم‌افزار SPSS Modeler 18.0 انجام شده است. جهت پيش‌بيني طبقه‌اي، داده‌هاي تاخير با استفاده از روش‌ خوشه‌بندي TwoStep گسسته‌سازي شده‌اند. از دو روش شبكه عصبي و C5.0 جهت پيش‌بيني طبقه‌اي و سه روش رگرسيون، CHAID و شبكه عصبي براي پيش‌بيني عددي استفاده شده است. براي پيشگيري از بيش‌برازش مدل با مشخصات داده‌هاي آموزشي، داده‌ها به دو قسمت داده‌هاي آموزشي و داده‌هاي آزمايشي تقسيم شده‌اند. براي ارزيابي نتايج پيش‌بيني، دو مدل ساخته شده است، اولين مدل بر اساس داده‌هاي سال‌هاي 92 تا 95 آموزش مي‌بيند و به پيش‌بيني تاخير براي داده‌هاي سال 96 مي‌پردازد. در مدل دوم، 75% داده‌ها را مجموعه آموزشي و 25% را مجموعه آزمايشي تشكيل مي‌دهند. نتايج نشان مي‌دهد كه در پيش بيني عددي، روش شبكه عصبي و در پيش‌بيني به صورت طبقه‌اي، روش C5.0 از دقت بالاتري نسبت به ساير روش‌ها برخوردار هستند، لذا از اين دو تكنيك براي پيش‌بيني تاخير قطارهاي سال 97 استفاده شده است. در انتها، پيش‌بيني عددي به صورت گروه‌بندي بر روي ركورد‌هاي پايگاه داده نيز انجام شده است. نتايج نشان مي‌دهد كه دقت پيش‌بيني به صورت گروه‌بندي بالاتر از زماني است كه پيش‌بيني بر روي كل پايگاه داده صورت مي‌گيرد.
  • تاريخ ورود اطلاعات
    1397/09/20
  • عنوان به انگليسي
    Railway Passenger Train Delay Prediction via Data Mining Methods
  • تاريخ بهره برداري
    12/10/2018 12:00:00 AM
  • دانشجوي وارد كننده اطلاعات

    حامد زارعي

  • چكيده به لاتين
    Passenger Train Delays are among the most important challenges for rail systems around the world. Train delays impose a huge cost on passengers and operators, contributing to the inefficiency of train operations. The aim of this research is to predict passenger train delays in Iranian Railways using Data Mining techniques. The results of this project are used to design train timetables. The CRISP-DM data mining methodology is used for this project. The data used in this study includes a database of passenger train delays from 2013 to 2017, including 319,081 records. The data preparation process involves integrating train delays data, correcting mistakes of the database fields, adding new features to the database and removing Outliers. Independent variables for prediction model include year, month, day, day of the week, departure time, axis, train type, car type, origin and destination of the train and the train owner. In order to model prediction of train delay, two kind of prediction, named Numerical and Classification are used on entire database in Spss Modeler 18.0. Neural network and C5.0 methods are used for classification prediction. The TwoStep clustering method is used to divide the delay field into three labels. Regression, CHAID and neural network methods are used for numerical prediction. To evaluate prediction results, we divide existing passenger train delays data set into two subsets called training set and test set, in which 75% of the data is the training set and 25% is the test set. The results show that in numerical prediction, neural network method and in prediction by classification, C5.0 method has higher accuracy than other methods, therefore, these two techniques have been used to predict the train delays of year 2018. Numerical prediction is used by grouping some database fields. The results show that the prediction by grouping has higher accuracy than the prediction for the entire database.