رسول رضواني جلال

عنوان

پيش¬بيني ميزان اهميت و نوع تخريب در فايل¬هاي پيچيده مخرب غيراجرايي

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

مهندسي كامپيوتر - نرم افزار

سال تحصيل

1400

تاريخ دفاع

1403/06/28

استاد راهنما

سعيد پارسا

استاد مشاور

دانشكده

مهندسي كامپيوتر

چكيده

در چشم¬انداز به سرعت در حال تحول امنيت سايبري، حملات بدافزاري كه قالب¬هاي غيرقابل اجرا پركاربرد را هدف قرار مي¬دهند، يعني مايكروسافت آفيس و فايل¬هاي پي دي اف، به يك تهديد رايج تبديل شده¬اند. اين فايل¬ها كه طيف وسيعي از انواع داده¬ها را در بر مي¬گيرند به عنوان فايل هاي پيچيده طبقه-بندي مي¬شوند. با توجه به اين¬كه در مطالعات گوناگون نوع آفيس و پي دي اف به عنوان فايل¬هاي پيچيده غيراجرايي در نظر گرفته مي¬شوند، در اين رساله اين نوع فايل¬ها مورد مطالعه قرار مي¬گيرند. مدل‌هاي شناسايي بدافزار موجود در حال حاضر فاقد شفافيت هستند و فقط برچسب‌هاي باينري را بدون امتياز اطمينان ارائه مي‌دهند. تركيب سطوح اطمينان مي‌تواند تفسيرپذيري را افزايش داده و به تحليلگران در تصميم‌گيري آگاهانه و بهبود دقت تشخيص كمك كند. دو راه حل مكمل براي رسيدگي به مشكلات شناسايي بدافزار فعلي پيشنهاد شده است. روش اول شامل توسعه مدل‌هاي طبقه‌بندي باينري، با استفاده از مجموعه داده‌اي از فايل‌هاي مرتبط جمع‌آوري‌شده از منابع مختلف، با مجموعه ويژگي‌هاي گسترده كه به صورت ايستا استخراج شده‌اند، براي دستيابي به دقت بالا است. روش دوم از توسعه مدل هاي رگرسيون براي نسبت دادن نمره اطمينان به هر نمونه استفاده مي كند. يافته‌هاي ما در مقايسه با مدل‌هاي دودويي تشخيص بدافزار موجود، با بهبودي تقريباً 2 درصدي براي فايل‌هاي پي دي اف و 1.9 درصدي براي آفيس، پيشرفت‌هايي را نشان مي‌دهد. به طور خاص، مدل تقويت كننده گراديان به 99.3 درصد دقت براي تشخيص بدافزار پي دي اف دست يافت، در حالي كه يك مدل جنگل تصادفي 99.4 درصد دقت را براي فايل هاي آفيس به دست آورد. علاوه بر اين، رگرسيون جنگل تصادفي به ميانگين مربعات خطا 0.0006 براي پي دي اف و 0.003 براي فايل‌هاي آفيس در پيش‌بيني امتياز اطمينان دست مي‌يابد. استفاده از امتياز اطمينان همراه با طبقه‌بندي دودويي، دقت تشخيص را به 99.74 درصد براي فايل‌هاي پي دي اف و 99.77 درصد براي فايل‌هاي آفيس افزايش مي‌دهد و تشخيص را به ميزان قابل توجهي بهبود مي‌بخشد. در كنار اين موارد لزوم تشخيص رفتار بدافزارهاي اين نوع نيز وجود دارد. بنابراين با ايجاد مدل¬هاي طبقه¬بند چندبرچسبي توانستيم با دقت 94.3 درصد براي مجموعه داده پي دي اف با مدل پرسپترون چندلايه و 93.8 درصد براي مجموعه داده آفيس با مدل جنگل تصادفي، برچسب خانواده آن¬ها را تعيين كنيم.

تاريخ ورود اطلاعات

1403/07/07

عنوان به انگليسي

Predicting the degree of importance and type of destruction in non-executable malicious complex files

تاريخ بهره برداري

9/18/2025 12:00:00 AM

دانشجوي وارد كننده اطلاعات

رسول رضواني جلال

Name: رسول رضواني جلال
Author: رسول رضواني جلال

چكيده به لاتين

In the rapidly evolving landscape of cybersecurity, malware attacks targeting widely used non-executable formats, namely Microsoft Office and PDF files, have become a preva‎lent threat. These files, which encompass broad spectrum of data types are classified as complex files. Existing malware detection models suffer from a high false-positive rate making their results unreliable. Two complementary solutions are proposed to address the problems of current malware detections. The first methodology involves the development of binary classification models, utilizing a dataset of related files collected from various sources, with an extended feature set to achieve high accuracy. The second methodology employs the development of regression models to ascribe confidence score to each sample. A weighted reliability score is assigned to various antiviruses to accurately label malicious samples with confidence scores. Our findings demonstrate an enhancement compared to existing malware detection models, with improvements of approximately 2% for PDF files and 1.9% for MS Office. Specifically, the gradient-boosting model achieved 99.3% accuracy for PDF malware detection, while a random forest model achieved 99.4% accuracy for MS Office files. Moreover, the random forest regressor achieves a mean squared error (MSE) of 0.0006 for PDF and 0.003 for Microsoft Office files in predicting confidence score. Also, multi-label classification model were used to determine the family of this type of malware. After performing the relevant tests, the MLP model performs better than others with a rate of 94.3 for the PDF data set. Also, the random forest model was able to perform 93.8 better than other models on the office dataset and determine the relevant labels.

كليدواژه هاي فارسي

تشخيص هوشمند بدافزار , طبقه بندي بدافزار , فايلهاي پيچيده غيراجرايي , امتياز اطمينان بدافزار , تحليل ايستا , طبقه بندي چندكلاسه

كليدواژه هاي لاتين

Intelligent malware detection , Malware classification , Non-executable complex files , Malware confidence score , Static analysis , Multi-labeled classification

Author

Rasoul Rezvani-Jalal

SuperVisor

Dr. Saeed Parsa

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=31254&Field=0&DTC=6