شماره ركورد
34671
پديد آورنده
مها الهدو
عنوان
يك رويكرد تركيبي كه معيارهاي تشابه را براي خوشه بندي اسناد يكپارچه مي كند
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
مهندسي كامپيوتر- نرمافزار
سال تحصيل
1402
تاريخ دفاع
1404/11/28
استاد راهنما
حسن نادرى
استاد مشاور
/
دانشكده
پرديس دانشگاهي - دانشكده مهندسي كامپيوتر
چكيده
اين پايان نامه يك رويكرد تركيبي ادغام معيارهاي تشابه با خوشه بندي اسناد را براي رفع كاستي هاي روش هاي خوشه بندي اسناد تك متريك پيشنهاد مي كند كه اغلب نمي توانند طيف كاملي از روابط واژگاني، آماري و معنايي بين اسناد را ارائه دهند. اين مدل با پيش پردازش مانند عادي سازي متن، حذف كلمات توقف، حذف علائم نقطه گذاري و واژه سازي شروع مي شود و سپس اسناد با استفاده از Count Vectorizer و TF-IDF نمايش داده مي شوند. سپس خوشهبندي سلسله مراتبي تجمعي بر روي ماتريسهاي فاصله بر اساس چندين معيار شباهت مختلف اعمال ميشود. چارچوب پيشنهادي شباهتهاي كسينوس، BM25، Dice و Minkowski را در يك شباهت تركيبي واحد تركيب ميكند، بر خلاف روشهاي سنتي كه فقط ميتوانند از يك معيار تشابه واحد استفاده كنند و بنابراين از ويژگيهاي مكمل آنها استفاده كنند. مجموعه داده هاي بي بي سي نيوز، كه شامل 2225 سند در پنج دسته بود براي انجام ارزيابي تجربي استفاده شد. يافتهها نشان داد كه مدل شباهت تركيبي بهتر از معيارهاي منفرد است، زيرا خوشهبندي متجانس و متمايز ارائه ميدهد. به طور خاص، مدل بهينه داراي شباهت زوجي متوسط 0.1400، انحراف استاندارد 0.1113 و نمرات ارزيابي داخلي بهتر با امتياز Silhouette بالاتر و شاخص Davies-Bouldin كمتر از خطوط پايه تك متريك بود. تجزيه و تحليل بصري از طريق نقشههاي حرارتي شباهت تأييد كرد كه رويكرد تركيبي به طور موثر انسجام درون خوشهاي را با جدايي بين خوشهاي متعادل ميكند. اين يافتهها استحكام و تفسيرپذيري چارچوب شباهت تركيبي را تأييد ميكند و راهحلي قابل اعتماد براي خوشهبندي اسناد در مجموعههاي متني ناهمگن ارائه ميدهد.
تاريخ ورود اطلاعات
1405/01/29
عنوان به انگليسي
A Hybrid Approach Integrating Similarity Metrics for document clustering
تاريخ بهره برداري
2/17/2027 12:00:00 AM
دانشجوي وارد كننده اطلاعات
مها الهدو
چكيده به لاتين
This thesis proposes A Hybrid Approach Integrating Similarity Metrics to Document Clustering to meet the shortcomings of single-metric document clustering methods that can often fail to provide the complete range of lexical, statistical, and semantic relationships between documents. This model starts with pre-processing such as text normalization, stopwords removal, punctuation removal, and lemmatization, and then documents are represented using Count Vectorizer and TF-IDF. Then Agglomerative Hierarchical Clustering is applied on the distance matrices based on several different similarity measures. The proposed framework combines Cosine, BM25, Dice, and Minkowski similarities into a single hybrid similarity, unlike traditional methods that can only use a single similarity measure, and thus utilize their complementary features. BBC News dataset, which included 2,225 documents in five categories was used to carry out the experimental evaluation. Findings, showed that the hybrid similarity model was better than the single measures in that it yielded congruent and distinct clustering. In particular, the optimal model had an average pairwise similarity of 0.1400, standard deviation of 0.1113 and better internal evaluation scores with higher Silhouette Score and a lower Davies-Bouldin Index than the single-metric baselines. Visual analysis through similarity heatmaps confirmed that the hybrid approach effectively balances intra-cluster cohesion with inter-cluster separation. These findings validate the robustness and interpretability of the hybrid similarity framework, offering a reliable solution for document clustering in heterogeneous text corpora.
كليدواژه هاي فارسي
رويكرد تركيبي , خوشه بندي اسناد , شباهت تركيبي , متن كاوي , پردازش زبان طبيعي (NLP) , ارزيابي خوشه بندي
كليدواژه هاي لاتين
hybrid approach , Document Clustering , Hybrid Similarity , Text Mining , Natural language processing (NLP) , Clustering evaluation
Author
Maha Alhado
SuperVisor
Dr. Hassan Naderi