شماره ركورد
16492
شماره راهنما(اين فيلد مربوط به كارشناس ميباشد لطفا آن را خالي بگذاريد)
16492
پديد آورنده
وحيد شيرزادي
عنوان
خوشهبندي اسناد متني با كمك ارتباط بين واژهها
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
نرمافزار
تاريخ دفاع
مهرماه 1395
استاد راهنما
دكتر حسن نادري
دانشكده
كامپيوتر
چكيده
چكيده
امروزه خوشهبندي اسناد يكي از مهمترين موضوعات مطالعاتي درزمينههاي مختلفي نظير تجزيه تحليل احساسات، طبقهبندي اسناد و اخبار به شمار ميرود. روشهاي زيادي براي خوشهبندي سندهاي متني ارائه شدهاند كه هركدام بهنوبه خود از خصوصيتهاي ويژهاي برخوردار ميباشند. توجه به معناي كلمات علاوه بر خصوصيتهاي آماري آنها ميتواند تأثير بسزايي در بالا بردن كيفيت كار خروجي الگوريتم خوشهبندي داشته باشد. شايد بتوان هم رخدادي كلمات را نيز بهگونهاي بهعنوان تلاشي در راستاي تشخيص زمينه يك كلمه در نظر گرفت، كه در اين خصوص نيز كارهاي باارزشي در اين زمينه انجامشده است.
به طبع هنوز مسير طولاني در راستاي رسيدن به يك سيستم خوشه بند سند خوب بايد طي شود. در راستاي رسيدن به هدف مدنظر در اين زمينه بايد از خصوصيتها و قابليتهاي جديدي استفاده شود تا بتوان كارهاي ديگران را يك مرحله به جلو پيش برد.
ايده مطرحشده را ميتوان بهعنوان يك مرحله جلوتر از روشهاي هم رخدادي در نظر گرفت. در مرحله اول در اين تحقيق، بهمحض تشخيص هم رخدادي كلمات يالي در يك گراف هم رخدادي كلمات ايجاد ميشود كه درنهايت منجر به توليد گرافي از كلمات هم رخداد خواهد شد. پس از تشكيل گراف هم رخدادي كلمات موجود در تمامي سندهاي مورد پردازش، با استفاده از محاسبه معيارهاي مركزيت گراف سعي در محاسبه وزن كلمات در اين گراف خواهيم داشت. وزن به وجود آمده از اين محاسبات براي كلمات ميتواند بهعنوان بهبوددهنده روشهاي پيشين در محاسبه وزن كلمات در اسناد مورداستفاده قرار گيرد. به گفته ديگر با اعمال تأثير وزن سراسري كلمه در گراف هم رخدادي سعي بر بهبود روش متداول k-means در خوشهبندي اسناد را خواهيم داشت. معيارهايي همگني و جامعيت به همراه معيار Silhouette سه ميزاني خواهند بود كه با استفاده از آنها روش خود را با روش k-means استاندارد مقايسه خواهيم كرد.
كلمات كليدي: سازماندهي اسناد، گراف، ويژگي متون، خوشهبندي اسناد، معيارهاي مركزيت
تاريخ ورود اطلاعات
1395/11/13
تاريخ بهره برداري
1/1/1900 12:00:00 AM
دانشجوي وارد كننده اطلاعات
اعظم صادقي
چكيده به لاتين
Abstract:
Today text clustering is an important task in varies fields of science such as opinion mining, latent semantic analysis, social networks and etc. All of these text information are unstructured format, therefore development of methods for automatically clustering is very important, although there are lots of researches about clustering technique, but this is still a new concept and new area of study so on this thesis we introduce a new novel approach in text clustering.
In recent years ago clustering approach use Bag_of_Words model, instead of this traditional model we want to convert all text corpus and their documents into Graph_of_Words model. Unlike other approach we focus on related co-occurrence words in documents and convert those terms into graph with nodes as term and their relationships as edge.
After calculate centrality measure for all nodes, each node get a new weight. To evaluate our approach we use vector space model as input parameter for K_Means clustering algorithm, therefore after generating results we will see our approach will cluster all text document better than traditional model.
Keywords: Text Clustering, Graph, Text Mining, Centrality Measure