شماره ركورد
26698
پديد آورنده
منصوره درخشان
عنوان
پيش بيني ريزش كاربران دوچرخه هاي اشتراكي با استفاده از روشهاي داده كاوي
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
مهندسي صنايع
سال تحصيل
1401
تاريخ دفاع
1401/02/08
استاد راهنما
دكتر سعيد ميرزا محمدي
استاد مشاور
دكتر محمدرضا رسولي
دانشكده
مهندسي صنايع
چكيده
پايان نامه پيش رو با هدف بهبود شرايط حمل و نقل اشتراكي، كاهش هزينههاي ترافيكي و زيست محيطي و كمك به بقاي كسب و كارهاي ارائه دهندهي خدمات مربوط به اين نوع از حمل و نقل، اقدام به پيشبيني ريزش مشتريان دوچرخههاي اشتراكي با استفاده از روشهاي داده كاوي نموده است. با توجه به اين كه در طي سالهاي اخير نظام حمل و نقل مبتني بر دوچرخههاي اشتراكي در چندين شهر بزرگ در كشور ايران راه اندازي شده و با توجه به معضلاتي از قبيل آلودگي هوا، ترافيك، هزينههاي زياد حمل و نقل در كلان شهرها، پرداختن به اين موضوع حائز اهميت ميباشد. در اين تحقيق ابتدا با استفاده از متدولوژي CRISP-DM، مراحل انجام تحقيق تعيين گرديده، سپس دادههاي مورد نياز با تكيه بر نظر خبرگان و ادبيات مرور شده جمعآوري گرديد. پس از پاكسازي مجموعه داده در دو حالت اسمي و عددي با استفاده از مدل رگرسيون لجستيك عوامل موثر بر ريزش كاربران از ميان متغيرهاي موجود شناسايي شده و اثرگذاري هر متغير با استفاده از آزمون والد، بررسي شده است.
سپس پنج الگوريتم يادگيري ماشين شامل شبكه عصبي، درخت تصميم، جنگل تصادفي، بيز ساده و ماشين بردار پشتيبان جهت پيشبيني ريزش مشتريان مورد استفاده قرار گرفتند. در گام بعدي با كمك ماتريس اغتشاش حاصل از هر مدل، عملكرد مدلها مورد ارزيابي قرار گرفت. در مرحله اعتبارسنجي از اعتبار سنجي متقابل بهره جسته شد و سپس با كمك آزمون آماري t، تفاوت دقت عملكرد مدلها سنجيده گرديد. در گام بعد، محدوده شهري مورد مطالعه بخش بندي شده و بر اساس بخشهاي شهري، بيشترين محدودهي جغرافيايي سفر هر كاربر شناسايي شده، سپس مدلها و گامهاي قبلي مجدد اجرا گرديدند.
بر اساس يافتههاي پژوهش، متغيرهاي تعداد سفرهاي موفق، سن و مدت زمان فعال بودن حساب كاربري سه متغير اولي هستند كه بر رويگرداني مشتريان اثرگذار ميباشند. نتايج نشان ميدهند كه شبكه عصبي داراي بيشترين دقت در ميان ساير مدلها ميباشد و بعد از آن درخت تصميم، جنگل تصادفي، بيز ساده و ماشين بردار پشتيبان به ترتيب از بيشترين دقت برخوردار هستند و مشخص گرديد كه تفاوت دقت تمامي مدلها به غير از درخت تصميم و جنگل تصادفي معنادار ميباشند. به علاوه اضافه نمودن مشخصه جغرافيايي موجب افزايش دقت مدلها شده و اين به منزلهي اهميت در نظرگيري منطقهي جغرافيايي در پيشبيني ريزش مشتريان دوچرخههاي اشتراكي ميباشد. همانند قبل در اين حالت نيز شبكه عصبي داراي بيشترين دقت بوده و مدلهاي بيزساده، درخت تصميم، جنگل تصادفي و ماشين بردارپشتيان به ترتيب داراي بيشترين دقت بوده و دقت تمامي مدلها به غير جنگل تصادفي و درخت تصميم داراي تفاوتي معنادار ميباشند.
تاريخ ورود اطلاعات
1401/04/09
عنوان به انگليسي
Churn Prediction of Bike Sharing Service Customers Using Data Mining Algorithms
تاريخ بهره برداري
4/28/2023 12:00:00 AM
دانشجوي وارد كننده اطلاعات
منصوره درخشان
چكيده به لاتين
This dissertation intents to predict the bike sharing customer churn using data mining techniques to improve the conditions of shared transportation, reduce traffic and environmental costs and help businesses providing services related to shared transportation. Due to the fact that in recent years, bike sharing transportation systems have been launched in large cities in Iran, and due to problems, such as air pollution, traffic and high transportation costs in metropolitan areas, customer churn prediction is an important issue. In this research, first, using CRISP-DM methodology, the stages of research were determined, then the requirements were collected based on the opinion of experts and reviewed literature. After clearing the data set in both nominal and numerical modes, a logistic regression model was developed to identify the variables with most effect on customer dropout. The effectiveness of each variable has been tested by Wald statistic.
In the next step, five machine learning algorithm including Neural Networks, Decision Tree, Random Forest, Naive Bayes and Support Vector Machine were used to predict customer churn. Then, with the help of confusion matrix, the performance of each algorithm has been evaluated. In the validation stage, cross-validation was used and then with the help of t-test, the difference in accuracy of the models was tested. In the next phase, the studied urban area was segmented and based on the section obtained, the most geographical area of each user's trip is identified, then the previous models and steps were implemented again.
Results show that the number of successful trips, age and duration of active account are the first three factors that affect the turn away of customers. Also, It has been found that Nueral Network model has the highest accuracy among other models, followed by Decision Tree, Random Forest, Naive Bayes and SVM, and according to the t-test it is clear that the difference between all models' accuracy are considerable except for Decision Tree and Random Forest. In addition, geographic characterization has increased the accuracy of the models, which means that geographical areas are taken into account in predicting customer churn of bike sharing systems. As previous case in this study, Neural Networks outperforms other models, and, again, the the accuracy difference between models is significant except for Decision Tree and Random Forest.
كليدواژه هاي فارسي
داده كاوي , پيش بيني ريزش مشتري , يادگيري ماشين , اقتصاد اشتراكي
كليدواژه هاي لاتين
Data Mining , Customer Churn Prediction , Machine Learning , Shared Economy
Author
Mansoure Derakhshan
SuperVisor
Dr. Saeed Mirzamohammadi