• شماره ركورد
    26698
  • پديد آورنده

    منصوره درخشان

  • عنوان
    پيش بيني ريزش كاربران دوچرخه هاي اشتراكي با استفاده از روش‌هاي داده كاوي
  • مقطع تحصيلي
    كارشناسي ارشد
  • رشته تحصيلي
    مهندسي صنايع
  • سال تحصيل
    1401
  • تاريخ دفاع
    1401/02/08
  • استاد راهنما
    دكتر سعيد ميرزا محمدي
  • استاد مشاور
    دكتر محمدرضا رسولي
  • دانشكده
    مهندسي صنايع
  • چكيده
    پايان نامه پيش رو با هدف بهبود شرايط حمل و نقل اشتراكي، كاهش هزينه‌هاي ترافيكي و زيست محيطي و كمك به بقاي كسب و كارهاي ارائه دهنده‌ي خدمات مربوط به اين نوع از حمل و نقل، اقدام به پيش‌بيني ريزش مشتريان دوچرخه‌هاي اشتراكي با استفاده از روش‌هاي داده كاوي نموده است. با توجه به اين كه در طي سال‌هاي اخير نظام حمل و نقل مبتني بر دوچرخه‌هاي اشتراكي در چندين شهر بزرگ در كشور ايران راه اندازي شده و با توجه به معضلاتي از قبيل آلودگي هوا، ترافيك، هزينه‌هاي زياد حمل و نقل در كلان شهرها، پرداختن به اين موضوع حائز اهميت مي‌باشد. در اين تحقيق ابتدا با استفاده از متدولوژي CRISP-DM، مراحل انجام تحقيق تعيين گرديده، سپس داده‌هاي مورد نياز با تكيه بر نظر خبرگان و ادبيات مرور شده جمع‌آوري گرديد. پس از پاكسازي مجموعه داده‌ در دو حالت اسمي و عددي با استفاده از مدل رگرسيون لجستيك عوامل موثر بر ريزش كاربران از ميان متغيرهاي موجود شناسايي شده و اثرگذاري هر متغير با استفاده از آزمون والد، بررسي شده است. سپس پنج الگوريتم يادگيري ماشين شامل شبكه عصبي، درخت تصميم، جنگل تصادفي، بيز ساده و ماشين بردار پشتيبان جهت پيش‌بيني ريزش مشتريان مورد استفاده قرار گرفتند. در گام بعدي با كمك ماتريس اغتشاش حاصل از هر مدل، عملكرد مدل‌‌ها مورد ارزيابي قرار گرفت. در مرحله اعتبارسنجي از اعتبار سنجي متقابل بهره جسته شد و سپس با كمك آزمون آماري t، تفاوت دقت عملكرد مدل‌ها سنجيده گرديد. در گام بعد، محدوده شهري مورد مطالعه بخش بندي شده و بر اساس بخش‌هاي شهري، بيشترين محدوده‌ي جغرافيايي سفر هر كاربر شناسايي شده، سپس مدل‌‌ها و گام‌هاي قبلي مجدد اجرا گرديدند. بر اساس يافته‌هاي پژوهش، متغيرهاي تعداد سفرهاي موفق، سن و مدت زمان فعال بودن حساب كاربري سه متغير اولي هستند كه بر رويگرداني مشتريان اثرگذار مي‌باشند. نتايج نشان مي‌دهند كه شبكه عصبي داراي بيشترين دقت در ميان ساير مدل‌ها مي‌باشد و بعد از آن درخت تصميم، جنگل تصادفي، بيز ساده و ماشين بردار پشتيبان به ترتيب از بيشترين دقت برخوردار هستند و مشخص گرديد كه تفاوت دقت تمامي مدل‌ها به غير از درخت تصميم و جنگل تصادفي معنادار مي‌باشند. به علاوه اضافه نمودن مشخصه جغرافيايي موجب افزايش دقت مدل‌ها شده و اين به منزله‌ي اهميت در نظرگيري منطقه‌ي جغرافيايي در پيش‌بيني ريزش مشتريان دوچرخه‌هاي اشتراكي مي‌باشد. همانند قبل در اين حالت نيز شبكه عصبي داراي بيشترين دقت بوده و مدل‌هاي بيزساده، درخت تصميم، جنگل تصادفي و ماشين بردارپشتيان به ترتيب داراي بيشترين دقت بوده و دقت تمامي مدل‌ها به غير جنگل تصادفي و درخت تصميم داراي تفاوتي معنادار مي‌باشند.
  • تاريخ ورود اطلاعات
    1401/04/09
  • عنوان به انگليسي
    Churn Prediction of Bike Sharing Service Customers Using Data Mining Algorithms
  • تاريخ بهره برداري
    4/28/2023 12:00:00 AM
  • دانشجوي وارد كننده اطلاعات

    منصوره درخشان

  • چكيده به لاتين
    This dissertation intents to predict the bike sharing customer churn using data mining techniques to improve the conditions of shared transportation, reduce traffic and environmental costs and help businesses providing services related to shared transportation. Due to the fact that in recent years, bike sharing transportation systems have been launched in large cities in Iran, and due to problems, such as air pollution, traffic and high transportation costs in metropolitan areas, customer churn prediction is an important issue. In this research, first, using CRISP-DM methodology, the stages of research were determined, then the requirements were collected based on the opinion of experts and reviewed literature. After clearing the data set in both nominal and numerical modes, a logistic regression model was developed to identify the variables with most effect on customer dropout. The effectiveness of each variable has been tested by Wald statistic. In the next step, five machine learning algorithm including Neural Networks, Decision Tree, Random Forest, Naive Bayes and Support Vector Machine were used to predict customer churn. Then, with the help of confusion matrix, the performance of each algorithm has been eva‎luated. In the validation stage, cross-validation was used and then with the help of t-test, the difference in accuracy of the models was tested. In the next phase, the studied urban area was segmented and based on the section obtained, the most geographical area of each user's trip is identified, then the previous models and steps were implemented again. Results show that the number of successful trips, age and duration of active account are the first three factors that affect the turn away of customers. Also, It has been found that Nueral Network model has the highest accuracy among other models, followed by Decision Tree, Random Forest, Naive Bayes and SVM, and according to the t-test it is clear that the difference between all models' accuracy are considerable except for Decision Tree and Random Forest. In addition, geographic characterization has increased the accuracy of the models, which means that geographical areas are taken into account in predicting customer churn of bike sharing systems. As previous case in this study, Neural Networks outperforms other models, and, again, the the accuracy difference between models is significant except for Decision Tree and Random Forest.
  • كليدواژه هاي فارسي
    داده كاوي , پيش بيني ريزش مشتري , يادگيري ماشين , اقتصاد اشتراكي
  • كليدواژه هاي لاتين
    Data Mining , Customer Churn Prediction , Machine Learning , Shared Economy
  • Author
    Mansoure Derakhshan
  • SuperVisor
    Dr. Saeed Mirzamohammadi