-
شماره ركورد
6685
-
شماره راهنما(اين فيلد مربوط به كارشناس ميباشد لطفا آن را خالي بگذاريد)
6685
-
پديد آورنده
حسين دانشور
-
عنوان
پيش بيني احتمال زنده ماندن افراد در حادثه كشتي تايتانيك (داده كاوي با استفاده از نرم افزار پايتون)
-
مقطع تحصيلي
كارشناسي
-
رشته تحصيلي
صنايع
-
سال فارغ التحصيلي
1398
-
استاد راهنما
دكتر بابك اميري
-
دانشجوي وارد كننده اطلاعات
حسين دانشور
-
تاريخ ورود اطلاعات
1398/11/29
-
دانشكده
صنايع
-
عنوان به انگليسي
forecasting probability of survival in titanic disaster(data mining using python)
-
چكيده
چكيده
امروزه با گسترش سيستم هاي پايگاهي و حجم بالاي داده ها ي ذخيره شده در اين سيستم ها، نياز به ابزاري است تا بتوان داده هاي ذخيره شده را پردازش كرد و اطلاعات حاصل از اين پردازش را در اختيار كاربران قرار داد.
با استفاده از پرسش هاي ساده در SQL و ابزارهاي گوناگون گزارش گيري معمولي، مي توان اطلاعاتي را در اختيار كاربران قرار داد تا بتوانند به نتيجه گيري در مورد داده ها و روابط منطقي ميان آنها بپردازند اما وقتي كه حجم داده ها بالا باشد، كاربران هر چند زبر دست و با تجربه باشند نمي توانند الگوهاي مفيد را در ميان حجم انبوه داده ها تشخيص دهند و يا اگر قادر به اين كار هم باشند، هزينه عمليات از نظر نيروي انساني و مادي بسيار بالا است.
از سوي ديگر كاربران معمولا فرضيه اي را مطرح مي كنند و سپس بر اساس گزارشات مشاهده شده به اثبات يا رد فرضيه مي پردازند، در حالي كه امروزه نياز به روشهايي است كه اصطلاحا به كشف دانش بپردازند يعني با كمترين دخالت كاربر و به صورت خودكار الگوها و رابطه هاي منطقي را بيان نمايند.
داده كاوي يكي از مهمترين اين روشها است كه به وسيله آن الگوهاي مفيد در داده ها با حداقل دخالت كاربران شناخته مي شوند و اطلاعاتي را در اختيار كاربران و تحليل گران قرار مي دهند تا براساس آنها تصميمات مهم و حياتي در سازمانها اتخاذ شوند.
هر چه حجم داده ها بيشتر و روابط ميان آنها پيچيده تر باشد دسترسي به اطلاعات نهفته در ميان داده ها مشكل تر مي شود و نقش داده كاوي به عنوان يكي از روشهاي كشف دانش، روشن تر مي گردد.
در اين پروژه ما با استفاده از دو مجموعه داده ي آموزشي و آزمايشي، الگوريتم هاي داده كاوي را روي مجموعه داده هاي حاصل از مسافران كشتي تايتانيك پياده سازي نموده و به بررسي ميزان همبستگي ميان ويژگي هاي آن ها مانند كرايه/ سن/جنسيت/درگاه سوار شدن به كشتي و... با تابع هدف مساله يعني احتمال زنده ماندن افراد پرداختيم.
در اين پروژه از نرم افزار پايتون براي تحليل داده ها و از پكيج هاي پاندا براي وارد كردن توابع و كلاس هاي موردنظر به مدل استفاده نموديم و به تغيير نوع داده ها از الفبايي به عددي، پر كردن مقادير خالي در نمونه هاي حاصل از ويژگي ها، تعيين توزيع هاي آماري ويژگي ها، تعيين نوع ارتباط حاكم ميان ويژگي هاي مختلف با يكديگر و همچنين تشخيص ميزان همبستگي ميان ويژگي هاي مختلف با يكديگر و ويژگي هاي مختلف با احتمال زنده ماندن افراد پرداختيم.
بعضي از خصوصيات را از مدلمان حذف نموديم چرا كه داراي مقادير تكراري زيادي بودند و يا مقادير خالي(تهي) زيادي داشتند و همچنين با ميزان زنده ماندن ارتباطي نداشتند. همچنين در مواردي ويژگي هاي جديدي را از ويژگي هاي موجود ساختيم مثلا از ويژگي نام، ويژگي عنوان را استخراج نموديم.
در ادامه به طبقه بندي نمونه ها بر اساس مقادير مختلف ويژگي ها پرداختيم، براي مثال كودكاني كه از سن خاصي كمتر بودند يا زنان و يا كساني كه در كلاس شماره 1 قرار داشتند احتمال بيشتري داشت كه زنده بمانند. لذا اگر ويژگي هاي مختلف نمونه اي از مجموعه داده ي آزمايشي را داشته باشيم مي توانيم با استفاده از نمودار هاي رسم شده احتمال زنده ماندن او را تعيين كنيم.
-
لينک به اين مدرک :