• شماره ركورد
    27349
  • پديد آورنده

    مسعود جان بك لو

  • عنوان
    توسعه مدل هاي مبتني بر يادگيري ماشين براي تشخيص و پيش‌آگهي بيماري كرونا
  • مقطع تحصيلي
    كارشناسي ارشد
  • رشته تحصيلي
    مهندسي فناوري اطلاعات گرايش تجارت الكترونيك
  • سال تحصيل
    1401
  • تاريخ دفاع
    1401/08/09
  • استاد راهنما
    دكتر عليرضا علي احمدي
  • استاد مشاور
    دكتر مير سامان پيشوايي
  • دانشكده
    مهندسي صنايع
  • چكيده
    شناسايي بيماران كرونا در مراحل ابتدايي بيماري مي تواند از گسترش همه‌گيري در جامعه جلوگيري كند و جان انسان ها را نجات دهد. از طرفي ظرفيت روش استاندارد تشخيص كرونا ( تست آرتي‌پي‌سي‌آر) داراي محدويت است و نتيجه آن بين يك تا دو روز طول مي كشد. هدف از اين پژوهش توسعه مدل هاي مبتني بر يادگيري‌ماشين به همراه توصيف اين مدل ها بر پايه مقادير آزمايش خون بيماران براي تشخيص و پيش‌آگهي بيماران كرونا مي باشد . به منظور دستيابي به اين هدف از 598 نمونه استفاده شد . پنج الگوريتم يادگيري ماشين بر روي اين مجموعه داده مورد ارزيابي قرار گرفتند : رگرسيون لجستيك ، ماشين ‌بردارپشتيباني ، جنگل‌ تصادفي ، درخت تقويت گراديان و XGBOOST. از روش بهينه سازي بيزي به همراه اعتبارسنجي متقابل پنج مرحله اي براي تنظيم ابرپارامترهاي الگوريتم ها استفاده شد . براي انتخاب بهترين مدل براي فاز تشخيص و پيش‌آگهي از دو معيار ارزيابي استفاده شد : عملكرد مدل‌ها در پنج مرحله اعتبارسنجي متقابل و عملكرد مدل ها در پيش‌بيني مجموعه داده آزمايشي . علاوه بر اين براي فاز تشخيص از ارزيابي بك‌تست نيزاستفاده شد( شناسايي بيماران منفي براي كرونا ولي مثبت براي ديگر بيماري هاي تنفسي ) . از اهميت‌ ويژگي به همراه تحليل مقادير shap براي ارزيابي توصيفي بهترين مدل هاي انتخابي استفاده شد . براي فاز تشخيص كرونا مدل جنگل تصادفي با امتياز f1 77% ، امتياز AUC 85.9% ، حساسيت 74.4% و ويژگي 97.5%بهترين مدل انتخابي بود . براي فاز پيش‌آگهي مدل درخت تقويت گراديان با امتياز f1 77% ، امتياز AUC 79% ، صحت 76% و يادآوري 80% بهترين مدل انتخابي بود . متغيرهاي مهم براي فاز تشخيص لكوسيت ، پلاكت وائوزينوفيل بودند و براي فاز پيش‌آگهي متغيرهاي سن ، لنفوسيت و لكوسيت مهم بودند. مدل تشخيص كرونا توانست نتايج بهتري از لحاظ معيارهاي حساسيت و ويژگي در مقايسه با پژوهش‌هايي كه از مجموعه داده يكسان استفاده كرده بودند، كسب كند . هم‌چنين اين پژوهش اهميت توصيف مدل پيش‌بيني براي نشان دادن متغيرهاي خوني كه ممكن است در تشخيص و پيش آگهي تاثير داشته باشند را برجسته كرد . ساختار روش تحقيق مورد استفاده در اين پژوهش مي تواند براي تشخيص وپيش‌آگهي ديگر بيماري ها مورد استفاده قرار بگيرد .
  • تاريخ ورود اطلاعات
    1401/08/22
  • عنوان به انگليسي
    Devlopment of diagnosis and prognosis mdele in covid 19 patients uning machine learning
  • تاريخ بهره برداري
    10/31/2023 12:00:00 AM
  • دانشجوي وارد كننده اطلاعات

    مسعود جان بك لو

  • چكيده به لاتين
    Detecting patients in the early stages of the disease can prevent the spread of the epidemic in the community and save lives. On the other hand, the capacity of the standard corona detection method (RT PCR test) is limited and it took one to two days to determine the result. The purpose of this research was to develop diagnosis and prognosis models with description based on value blood counts of patient using machine learning. To achive this purpose 598 samples was used as dataset . Five machine learning algorithms were eva‎luated on this dataset : Logistic regression, support vector machine, random forest, gradient boosting tree and XGBOOST. Bayesian optimization method along with five-step cross-validation was used to set the hyperparameters of the algorithms. Two eva‎luation criteria were used to select the best model for the diagnosis and prognosis phase : The performance of models in five stages of cross validation and the performance of models in predicting the test set. Also backtest performance (Detecting negative covid-19 patient but positive for others respiratory pathologies) for disgnosis phase . Feature importance and SHAP analysis was used to explain chosen models. random forest model with f1 score 77 % , AUC score 85.9% , sensivity 74.4% and specificity 97.5 % had the best results in diangnosis models . Gradient Boosting Tree model with f1 score 77% < AUC score 79 % , precision 76 % and recall 80 % had the best results in prognosis models . important variables for diagnosis model were leckocyte , eosinophil and platelets. Age and lymphocyte and leukocyte were important in prognosis model.Diagnosis model was able to obtain better results in terms of sensitivity and specificity criteria compared to studies that used the same data set. Also, this research highlighted the importance of describing the predictive model to show the blood variables that are possible in the diagnosis and prognosis. The structure of the research method used in this research can be used for the diagnosis and prognosis of other diseases.
  • كليدواژه هاي فارسي
    بيماري كرونا , تشخيص , پيش آگهي , يادگيري ماشين
  • كليدواژه هاي لاتين
    covid 19 , diagnosis , prognosis , machine learning
  • Author
    masood janbackloo
  • SuperVisor
    alireza aliahmadi