وحيد شيرزادي

عنوان

خوشه‌بندي اسناد متني با كمك ارتباط بين واژه‌ها

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

نرم‌افزار

تاريخ دفاع

مهرماه 1395

استاد راهنما

دكتر حسن نادري

دانشكده

كامپيوتر

چكيده

چكيده امروزه خوشه‌بندي اسناد يكي از مهم‌ترين موضوعات مطالعاتي درزمينه‌هاي مختلفي نظير تجزيه تحليل احساسات، طبقه‌بندي اسناد و اخبار به شمار مي‌رود. روش‌هاي زيادي براي خوشه‌بندي سندهاي متني ارائه شده‌اند كه هركدام به‌نوبه خود از خصوصيت‌هاي ويژه‌اي برخوردار مي‌باشند. توجه به معناي كلمات علاوه بر خصوصيت‌هاي آماري آن‌ها مي‌تواند تأثير بسزايي در بالا بردن كيفيت كار خروجي الگوريتم خوشه‌بندي داشته باشد. شايد بتوان هم رخدادي كلمات را نيز به‌گونه‌اي به‌عنوان تلاشي در راستاي تشخيص زمينه يك كلمه در نظر گرفت، كه در اين خصوص نيز كارهاي باارزشي در اين زمينه انجام‌شده است. به طبع هنوز مسير طولاني در راستاي رسيدن به يك سيستم خوشه بند سند خوب بايد طي شود. در راستاي رسيدن به هدف مدنظر در اين زمينه بايد از خصوصيت‌ها و قابليت‌هاي جديدي استفاده شود تا بتوان كارهاي ديگران را يك مرحله به جلو پيش برد. ايده مطرح‌شده را مي‌توان به‌عنوان يك مرحله جلوتر از روش‌هاي هم رخدادي در نظر گرفت. در مرحله اول در اين تحقيق، به‌محض تشخيص هم رخدادي كلمات يالي در يك گراف هم رخدادي كلمات ايجاد مي‌شود كه درنهايت منجر به توليد گرافي از كلمات هم رخداد خواهد شد. پس از تشكيل گراف هم رخدادي كلمات موجود در تمامي سندهاي مورد پردازش، با استفاده از محاسبه معيارهاي مركزيت گراف سعي در محاسبه وزن كلمات در اين گراف خواهيم داشت. وزن به وجود آمده از اين محاسبات براي كلمات مي‌تواند به‌عنوان بهبوددهنده روش‌هاي پيشين در محاسبه وزن كلمات در اسناد مورداستفاده قرار گيرد. به گفته ديگر با اعمال تأثير وزن سراسري كلمه در گراف هم رخدادي سعي بر بهبود روش متداول k-means در خوشه‌بندي اسناد را خواهيم داشت. معيارهايي همگني و جامعيت به همراه معيار Silhouette سه ميزاني خواهند بود كه با استفاده از آن‌ها روش خود را با روش k-means استاندارد مقايسه خواهيم كرد. كلمات كليدي: سازمان‌دهي اسناد، گراف، ويژگي متون، خوشه‌بندي اسناد، معيارهاي مركزيت

تاريخ ورود اطلاعات

1395/11/13

تاريخ بهره برداري

1/1/1900 12:00:00 AM

دانشجوي وارد كننده اطلاعات

اعظم صادقي

Name: اعظم صادقي
Author: وحيد شيرزادي

چكيده به لاتين

Abstract: Today text clustering is an important task in varies fields of science such as opinion mining, latent semantic analysis, social networks and etc. All of these text information are unstructured format, therefore development of methods for automatically clustering is very important, although there are lots of researches about clustering technique, but this is still a new concept and new area of study so on this thesis we introduce a new novel approach in text clustering. In recent years ago clustering approach use Bag_of_Words model, instead of this traditional model we want to convert all text corpus and their documents into Graph_of_Words model. Unlike other approach we focus on related co-occurrence words in documents and convert those terms into graph with nodes as term and their relationships as edge. After calculate centrality measure for all nodes, each node get a new weight. To evaluate our approach we use vector space model as input parameter for K_Means clustering algorithm, therefore after generating results we will see our approach will cluster all text document better than traditional model. Keywords: Text Clustering, Graph, Text Mining, Centrality Measure

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=16492&Field=0&DTC=6