-
شماره ركورد
31254
-
پديد آورنده
رسول رضواني جلال
-
عنوان
پيش¬بيني ميزان اهميت و نوع تخريب در فايل¬هاي پيچيده مخرب غيراجرايي
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
مهندسي كامپيوتر - نرم افزار
-
سال تحصيل
1400
-
تاريخ دفاع
1403/06/28
-
استاد راهنما
سعيد پارسا
-
استاد مشاور
-
-
دانشكده
مهندسي كامپيوتر
-
چكيده
در چشم¬انداز به سرعت در حال تحول امنيت سايبري، حملات بدافزاري كه قالب¬هاي غيرقابل اجرا پركاربرد را هدف قرار مي¬دهند، يعني مايكروسافت آفيس و فايل¬هاي پي دي اف، به يك تهديد رايج تبديل شده¬اند. اين فايل¬ها كه طيف وسيعي از انواع داده¬ها را در بر مي¬گيرند به عنوان فايل هاي پيچيده طبقه-بندي مي¬شوند. با توجه به اين¬كه در مطالعات گوناگون نوع آفيس و پي دي اف به عنوان فايل¬هاي پيچيده غيراجرايي در نظر گرفته مي¬شوند، در اين رساله اين نوع فايل¬ها مورد مطالعه قرار مي¬گيرند. مدلهاي شناسايي بدافزار موجود در حال حاضر فاقد شفافيت هستند و فقط برچسبهاي باينري را بدون امتياز اطمينان ارائه ميدهند. تركيب سطوح اطمينان ميتواند تفسيرپذيري را افزايش داده و به تحليلگران در تصميمگيري آگاهانه و بهبود دقت تشخيص كمك كند. دو راه حل مكمل براي رسيدگي به مشكلات شناسايي بدافزار فعلي پيشنهاد شده است. روش اول شامل توسعه مدلهاي طبقهبندي باينري، با استفاده از مجموعه دادهاي از فايلهاي مرتبط جمعآوريشده از منابع مختلف، با مجموعه ويژگيهاي گسترده كه به صورت ايستا استخراج شدهاند، براي دستيابي به دقت بالا است. روش دوم از توسعه مدل هاي رگرسيون براي نسبت دادن نمره اطمينان به هر نمونه استفاده مي كند.
يافتههاي ما در مقايسه با مدلهاي دودويي تشخيص بدافزار موجود، با بهبودي تقريباً 2 درصدي براي فايلهاي پي دي اف و 1.9 درصدي براي آفيس، پيشرفتهايي را نشان ميدهد. به طور خاص، مدل تقويت كننده گراديان به 99.3 درصد دقت براي تشخيص بدافزار پي دي اف دست يافت، در حالي كه يك مدل جنگل تصادفي 99.4 درصد دقت را براي فايل هاي آفيس به دست آورد. علاوه بر اين، رگرسيون جنگل تصادفي به ميانگين مربعات خطا 0.0006 براي پي دي اف و 0.003 براي فايلهاي آفيس در پيشبيني امتياز اطمينان دست مييابد. استفاده از امتياز اطمينان همراه با طبقهبندي دودويي، دقت تشخيص را به 99.74 درصد براي فايلهاي پي دي اف و 99.77 درصد براي فايلهاي آفيس افزايش ميدهد و تشخيص را به ميزان قابل توجهي بهبود ميبخشد. در كنار اين موارد لزوم تشخيص رفتار بدافزارهاي اين نوع نيز وجود دارد. بنابراين با ايجاد مدل¬هاي طبقه¬بند چندبرچسبي توانستيم با دقت 94.3 درصد براي مجموعه داده پي دي اف با مدل پرسپترون چندلايه و 93.8 درصد براي مجموعه داده آفيس با مدل جنگل تصادفي، برچسب خانواده آن¬ها را تعيين كنيم.
-
تاريخ ورود اطلاعات
1403/07/07
-
عنوان به انگليسي
Predicting the degree of importance and type of destruction in non-executable malicious complex files
-
تاريخ بهره برداري
9/18/2025 12:00:00 AM
-
دانشجوي وارد كننده اطلاعات
رسول رضواني جلال
-
چكيده به لاتين
In the rapidly evolving landscape of cybersecurity, malware attacks targeting widely used non-executable formats, namely Microsoft Office and PDF files, have become a prevalent threat. These files, which encompass broad spectrum of data types are classified as complex files. Existing malware detection models suffer from a high false-positive rate making their results unreliable. Two complementary solutions are proposed to address the problems of current malware detections. The first methodology involves the development of binary classification models, utilizing a dataset of related files collected from various sources, with an extended feature set to achieve high accuracy. The second methodology employs the development of regression models to ascribe confidence score to each sample. A weighted reliability score is assigned to various antiviruses to accurately label malicious samples with confidence scores. Our findings demonstrate an enhancement compared to existing malware detection models, with improvements of approximately 2% for PDF files and 1.9% for MS Office. Specifically, the gradient-boosting model achieved 99.3% accuracy for PDF malware detection, while a random forest model achieved 99.4% accuracy for MS Office files. Moreover, the random forest regressor achieves a mean squared error (MSE) of 0.0006 for PDF and 0.003 for Microsoft Office files in predicting confidence score. Also, multi-label classification model were used to determine the family of this type of malware. After performing the relevant tests, the MLP model performs better than others with a rate of 94.3 for the PDF data set. Also, the random forest model was able to perform 93.8 better than other models on the office dataset and determine the relevant labels.
-
كليدواژه هاي فارسي
تشخيص هوشمند بدافزار , طبقه بندي بدافزار , فايلهاي پيچيده غيراجرايي , امتياز اطمينان بدافزار , تحليل ايستا , طبقه بندي چندكلاسه
-
كليدواژه هاي لاتين
Intelligent malware detection , Malware classification , Non-executable complex files , Malware confidence score , Static analysis , Multi-labeled classification
-
Author
Rasoul Rezvani-Jalal
-
SuperVisor
Dr. Saeed Parsa
-
لينک به اين مدرک :