-
شماره ركورد
25955
-
پديد آورنده
سينا باقري نژاد
-
عنوان
استفاده از روش هاي يادگيري ماشين جهت تعيين عوامل تأثيرگذار بر كاهش ميزان مرگ و مير و زمان بستري بيماران مبتلا به كوويد-19
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
مهندسي كامپيوتر - هوش مصنوعي و رباتيكز
-
سال تحصيل
1400
-
تاريخ دفاع
1400/10/07
-
استاد راهنما
دكتر ناصر مزيني
-
دانشكده
مهندسي كامپيوتر
-
چكيده
در پژوهش پيش رو با جمع آوري دادههاي 1040 بيمار كوويد-19 بستري در 3 بيمارستان در شهر هاي تهران، بجنورد و رشت، به تحليل آنها به منظور كشف عوامل تأثيرگذار بر فوت و مدت زمان بستري بيماران پرداختهايم. به منظور كشف عوامل مؤثر بر فوت بيماران، با استفاده از آموزش درخت تصميم، ويژگيهايي كه درخت تصميم در جداسازي افراد فوت شده و بهبود يافته استفاده ميكند را شناسائي كرده و سپس با كمك آزمون كولموگروف - اسميرنوف بررسي كرديم كه كدام ويژگي را ميتوان با اطمينان بالاي 95 درصد به عنوان ويژگيهايي بيان كرد كه بين جامعه افراد فوت شده و بهبود يافته داراي توزيع متفاوتي هستند. با اينكار از بين ويژگي هاي متعدد داده ها، 25 ويژگي شناسائي شدند. با توجه به اينكه اين ويژگي ها داراي توزيع متفاوتي در دو جامعه آماري هستند، اين ويژگي ها را مي توان ويژگيهاي تأثيرگذار بر جداسازي اين دو جامعه از يكديگر معرفي كرد. لذا درخت تصميم ديگري با اين ويژگيها تعريف كرديم و نشان داديم كه درخت جديد عملكرد مشابهي با درخت تصميمي كه با همه ويژگيها آموزش ديده است دارد و اينگونه نشان داديم كه استفاده از آزمون فرضيههاي آماري چگونه ميتواند ويژگيهايي كه در ردهبندي دادهها مؤثر هستند را شناسائي كند و لذا به نوعي ميتواند به عنوان يك انتخابكننده ويژگي به منظور كاهش ابعاد داده از آن استفاده نمود. در ادامه با همين روش ويژگيهايي كه بر مدتزمان بستري بيماران تأثيرگذار هستند را شناسائي كردهايم. اينبار از آزمون كراسكال-واليس براي تفاوت توزيع ويژگي ها در كلاس هاي مختلف افراد دوره بستري بيماران استفاده كرديم. ابتدا آزمون را با سطح اطمينان 95 درصد انجام داديم و 54 ويژگي مؤثر بر دوره بستري بيماران را شناسائي كرديم. سپس با انجام آزمون با سطح اطمينان 99 درصد تعداد ويژگي ها را به 36 كاهش داديم و نشان داديم كه چگونه با افزايش سطح اطمينان آزمون فرضيه مي توان به ابعاد داده ها را به طوري كاهش داد كه ويژگي هايي كه تفاوت بيشتري بين رده ها ايجاد مي كنند حفظ شوند. در ادامه درخت تصميمي با اين 36 ويژگي آموزش داديم و عملكرد آن را بررسي كرديم. در انتها ديديم كه درخت ساخته شده با اين 36 ويژگي تفاوتي از لحاظ عملكرد با درخت ساخته شده با تمام ويژگي ها ندارد و بنابراين مي توان از روش آزمون هاي آماري ناپارامتريك براي كاهش ابعاد داده ها و انتخاب ويژگيهاي موثر و متمايز كننده استفاده نمود. مزيت اين روش انتخاب ويژگي در اين است كه ثابت مي شود ويژگي هاي انتخاب شده با احتمال بالايي بين رده هاي مختلف داده متفاوت هستند و بنابراين ويژگي هايي كه تفاوتي در رده بندي ايجاد نمي كنند با دقت بالايي حذف مي شوند.
-
تاريخ ورود اطلاعات
1400/11/05
-
عنوان به انگليسي
Using machine learning methods to determine factors affecting mortality rate and hospitalization length of COVID-19 patients
-
تاريخ بهره برداري
1/1/1900 12:00:00 AM
-
دانشجوي وارد كننده اطلاعات
سينا باقري نژاد
-
چكيده به لاتين
In the present study, by collecting data from 1040 Covid-19 patients admitted to 3 hospitals in Tehran, Bojnourd and Rasht, we have analyzed them in order to discover the factors affecting the death and length of hospital stay of patients. In order to discover the factors affecting the death of patients, using the decision tree training, we identified the characteristics that the decision tree uses in isolating the deceased and improved people, and then with the help of Kolmogorov-Smirnov test we examined which feature can be safely Over 95% cited as characteristics that have different distributions among the community of deceased and recovered individuals. This identified 25 features among the various data features. Given that these features have different distribution in the two statistical communities, these features can be introduced as features that affect the separation of these two communities from each other. So we defined another decision tree with these properties and showed that the new tree has a similar function to the decision tree that is trained with all the features, and thus showed how using the statistical hypothesis test can identify the features that are effective in data classification. And so it can somehow be used as a feature selector to reduce the size of the data. In the following, we have identified the characteristics that affect the length of hospital stay of patients with the same method. This time we used the Kruskal-Wallis test to differentiate the distribution of characteristics in different classes of patients. First, we performed the test with 95% confidence level and identified 54 characteristics affecting the length of hospital stay. Then, by performing the test with 99% confidence level, we reduced the number of features to 36 and showed how by increasing the confidence level of the hypothesis test, the dimensions of the data can be reduced so that the features that make more difference between categories. To be preserved. Next, we trained the decision tree with these 36 features and examined its performance. In the end, we saw that the tree built with these 36 features is not different in terms of performance from the tree built with all the features, and therefore the non-parametric statistical test method can be used to reduce the dimensions of the data and select effective and differentiating features. The advantage of this feature selection method is that it is proved that the selected features are most likely different between different data categories, and therefore the features that do not make a difference in the classification are removed with high accuracy.
-
كليدواژه هاي فارسي
كوويد -19 , نرخ فوت بيماران , مدت زمان بستري , درخت تصميم , آزمون فرضيه هاي آماري
-
لينک به اين مدرک :