مها الهدو

عنوان

يك رويكرد تركيبي كه معيارهاي تشابه را براي خوشه بندي اسناد يكپارچه مي كند

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

مهندسي كامپيوتر- نرم‌افزار

سال تحصيل

1402

تاريخ دفاع

1404/11/28

استاد راهنما

حسن نادرى

استاد مشاور

دانشكده

پرديس دانشگاهي - دانشكده مهندسي كامپيوتر

چكيده

اين پايان نامه يك رويكرد تركيبي ادغام معيارهاي تشابه با خوشه بندي اسناد را براي رفع كاستي هاي روش هاي خوشه بندي اسناد تك متريك پيشنهاد مي كند كه اغلب نمي توانند طيف كاملي از روابط واژگاني، آماري و معنايي بين اسناد را ارائه دهند. اين مدل با پيش پردازش مانند عادي سازي متن، حذف كلمات توقف، حذف علائم نقطه گذاري و واژه سازي شروع مي شود و سپس اسناد با استفاده از Count Vectorizer و TF-IDF نمايش داده مي شوند. سپس خوشه‌بندي سلسله مراتبي تجمعي بر روي ماتريس‌هاي فاصله بر اساس چندين معيار شباهت مختلف اعمال مي‌شود. چارچوب پيشنهادي شباهت‌هاي كسينوس، BM25، Dice و Minkowski را در يك شباهت تركيبي واحد تركيب مي‌كند، بر خلاف روش‌هاي سنتي كه فقط مي‌توانند از يك معيار تشابه واحد استفاده كنند و بنابراين از ويژگي‌هاي مكمل آنها استفاده كنند. مجموعه داده هاي بي بي سي نيوز، كه شامل 2225 سند در پنج دسته بود براي انجام ارزيابي تجربي استفاده شد. يافته‌ها نشان داد كه مدل شباهت تركيبي بهتر از معيارهاي منفرد است، زيرا خوشه‌بندي متجانس و متمايز ارائه مي‌دهد. به طور خاص، مدل بهينه داراي شباهت زوجي متوسط 0.1400، انحراف استاندارد 0.1113 و نمرات ارزيابي داخلي بهتر با امتياز Silhouette بالاتر و شاخص Davies-Bouldin كمتر از خطوط پايه تك متريك بود. تجزيه و تحليل بصري از طريق نقشه‌هاي حرارتي شباهت تأييد كرد كه رويكرد تركيبي به طور موثر انسجام درون خوشه‌اي را با جدايي بين خوشه‌اي متعادل مي‌كند. اين يافته‌ها استحكام و تفسيرپذيري چارچوب شباهت تركيبي را تأييد مي‌كند و راه‌حلي قابل اعتماد براي خوشه‌بندي اسناد در مجموعه‌هاي متني ناهمگن ارائه مي‌دهد.

تاريخ ورود اطلاعات

1405/01/29

عنوان به انگليسي

A Hybrid Approach Integrating Similarity Metrics for document clustering

تاريخ بهره برداري

2/17/2027 12:00:00 AM

دانشجوي وارد كننده اطلاعات

مها الهدو

Name: مها الهدو
Author: مها الهدو

چكيده به لاتين

This thesis proposes A Hybrid Approach Integrating Similarity Metrics to Document Clustering to meet the shortcomings of single-metric document clustering methods that can often fail to provide the complete range of lexical, statistical, an‎d semantic relationships between documents. This model starts with pre-processing such as text normalization, stopwords removal, punctuation removal, an‎d lemmatization, an‎d then documents are represented using Count Vectorizer an‎d TF-IDF. Then Agglomerative Hierarchical Clustering is applied on the distance matrices based on several different similarity measures. The proposed framework combines Cosine, BM25, Dice, an‎d Minkowski similarities into a single hybrid similarity, unlike traditional methods that can only use a single similarity measure, an‎d thus utilize their complementary features. BBC News dataset, which included 2,225 documents in five categories was used to carry out the experimental eva‎luation. Findings, showed that the hybrid similarity model was better than the single measures in that it yielded congruent an‎d distinct clustering. In particular, the optimal model had an average pairwise similarity of 0.1400, stan‎dard deviation of 0.1113 an‎d better internal eva‎luation scores with higher Silhouette Score an‎d a lower Davies-Bouldin Index than the single-metric baselines. Visual analysis through similarity heatmaps confirmed that the hybrid approach effectively balances intra-cluster cohesion with inter-cluster separation. These findings validate the robustness an‎d interpretability of the hybrid similarity framework, offering a reliable solution for document clustering in heterogeneous text corpora.

كليدواژه هاي فارسي

رويكرد تركيبي , خوشه بندي اسناد , شباهت تركيبي , متن كاوي , پردازش زبان طبيعي (NLP) , ارزيابي خوشه بندي

كليدواژه هاي لاتين

hybrid approach , Document Clustering , Hybrid Similarity , Text Mining , Natural language processing (NLP) , Clustering eva‎luation

Author

Maha Alhado

SuperVisor

Dr. Hassan Naderi

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=34671&Field=0&DTC=6