شماره ركورد
33858
پديد آورنده
تهمينه عسگردون
عنوان
بررسي سميت دارو ها مبتني برخواص شيميايي،فيزيكي و ساختار مولكولي با استفاده از ابزار يادگيري ماشين با تمركز بر سرطانزايي
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
شيمي فيزيك
سال تحصيل
1404
تاريخ دفاع
1404/06/23
استاد راهنما
جناب اقاي دكتر مجيد هاشميان زاده
استاد مشاور
ندارم
دانشكده
شيمي
چكيده
سرطانزايي دارو ها يكي از چالش هاي اصلي در فرايند توسعه و ارزيابي ايمني تركيبات دارويي است كه مي تواند منجر به عوارض جانبي جدي و هزينه هاي بالاي ازمايش هاي باليني شود.در اين پژوهش با هدف پيش بيني حلاليت و سرطانزايي تركيبات شيميايي با استفاده از روش هاي يادگيري ماشين، 863 تركيب دارويي از پايگاه دادهPubChem انتخاب و فيچر هاي مولكولي كليدي ان ها مانند(وزن مولكولي، ضريب تقسيم، تعداد پيوند هاي هيدروژني، سطح قطبي و....استخراج شد. و متغير هدف سرطانزايي و حلاليت شبيه سازي شد.براي تحليل، از روش هاي پيشرفته انتخاب ويژگي استفاده شد تا هفت ويژگي برتر انتخاب شوند. سپس داده ها به دو مجموعه اموزشي و ازمايشي تقسيم شدند. چهارمدل يادگيري ماشين شامل جنگل تصادفي،تقويت گرادياني پيشرفته ،تقويت گرادياني ، درختان اضافي اموزش داده شد. عملكرد مدل هاي رگرسيون براي حلاليت با ضريب تعيين و ميانگين مربعات خطا و مدل هاي طبقه بندي براي سرطانزايي با معيار هايي مانند دقت، و مساحت زير منحني ROC-AUC ارزيابي گرديد. الگوريتم درختان اضافي با دقت اموزش 0.933 و دقت تست 0.875 به عنوان برترين مدل بررسي سرطانزايي انتخاب شد. علاوه بر اين، از روشShapley Additive Explanations براي تفسير اهميت ويژگي ها و تحليل وابستگي هاي مولكولي استفاده شد. اين رويكرد محاسباتي مي تواند به عنوان ابزاري كارامد براي غربالگري اوليه تركيبات دارويي عمل كند،هزينه هاي ازمايشگاهي را كاهش دهد و ايمني دارو ها را بهبود بخشد.
تاريخ ورود اطلاعات
1404/07/28
عنوان به انگليسي
investigating drug toxicity based on chemical and physical properties and molecular structure with machine learning focus on carnogencity
تاريخ بهره برداري
9/14/2026 12:00:00 AM
دانشجوي وارد كننده اطلاعات
تهمينه عسگردون
چكيده به لاتين
Carcinogenicity of drugs is one of the main challenges in the development and safety evaluation process of pharmaceutical compounds, which can lead to serious side effects and high costs of clinical trials. In this study, with the aim of predicting the solubility and carcinogenicity of chemical compounds using machine learning methods, 863 drug compounds were selected from the PubChem database and their key molecular features such as (molecular weight, partition coefficient, number of hydrogen bonds, polar surface area, etc.) were extracted. and the target variable of carcinogenicity and solubility was simulated. For analysis, advanced feature selection methods were used to select the top seven features. Then, the data were divided into two training and test sets. Four machine learning models including RandomForest, XGBoost, GradientBoosting, and ExtraTrees were trained. The performance of regression models for solubility with coefficient of determination and mean square error and classification models for carcinogenicity were evaluated with criteria such as accuracy, and area under the ROC-AUC curve. The Extra trees algorithm with a training accuracy of 0.933 and a testing accuracy of 0.875 was selected as the best model for investigating carcinogenicity. In addition, This, SHAP method was used to interpret the significance of features and analyze molecular dependencies. This computational approach can serve as an efficient tool for initial screening of drug compounds, reduce laboratory costs, and improve drug safety.
كليدواژه هاي فارسي
سميت دارو , سرطانزايي دارو
كليدواژه هاي لاتين
drug toxicity , drug carcinogenicity
Author
Tahmineh Asgardoon
SuperVisor
Dr. Majid Hashemianzadeh