شماره ركورد
18644
شماره راهنما(اين فيلد مربوط به كارشناس ميباشد لطفا آن را خالي بگذاريد)
۱۸۶۴۴
پديد آورنده
علي محمدي حسن كياده
عنوان
بهبود الگوريتم هاي تركيبي آماري و پردازش زباني در استخراج عبارات كليدي از متون انگليسي
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
نرم افزار
تاريخ دفاع
1396/12/5
استاد راهنما
دكتر سعيد پارسا
دانشكده
كامپيوتر
چكيده
استخراج عبارات كليدي به عنوان هسته پردازش هاي خودكاري است كه روي داده هاي متني انجام مي شود. بنابراين در الگوريتم هاي متن كاوي استخراج عبارات كليدي از اهميت ويژه اي برخوردار است. در واقع استخراج عبارات كليدي يك مرحله بنيادي از اكثر پروژه هاي متن كاوي است، كه تحقيق بر روي آن و پيدا كردن بهترين روش استخراج عبارات كليدي كه دقت و زمان اجرا مناسبي داشته باشد، اهميت ويژه اي دارد. آن ها براي دسته بندي ، خوشه بندي ، نمايه سازي ، جستجو ، خلاصه سازي ، تعيين كيفيت مشابهت معنايي اسناد متني و تقريبا در تمامي حوزه هاي ديگر متن كاوي كاربرد دارند.
در اين تحقيق، الگوريتم جديدي ارائه مي گردد كه علاوه بر سرعت بالاي استخراج عبارات كليدي، داراي دقت مناسبي نسبت به ساير الگوريتم هاي موجود در اين زمينه مي باشد. براي حذف كلمات زائد، يك ليست بهينه و مناسب براي كلمات زائد ارائه مي شود كه دقت و سرعت حذف كلمات زائد از متن ورودي را افزايش مي دهد. همچنين براي استخراج عبارات كليدي مناسب از رويكرد پردازش زباني استفاده شده است. در اين رويكرد با دو روش نحوي و لغوي عبارات كانديد مناسب را جهت پردازش و استخراج عبارات كليدي، مشخص مي نمايد.
علاوه بر بهينه سازي هايي كه در بالا ذكر شد، بهينه سازي هاي ديگري نيز روي تمامي الگوريتم هاي مطرح شده در اين تحقيق، از جمله الگوريتم هاي TF-IDF و RAKE انجام مي شود و الگوريتم هاي جديدي به نام TFIDF-1-TEXT و optimized-RAKE ارائه مي گردد. با استفاده از چهار معيار دقت، فراخواني، امتياز-F و ضريب تشابه ژاكارد، نشان داده خواهد شد كه، اين دو الگوريتم در مقايسه با ساير الگوريتم ها، نتايج بهتري را ارائه مي كنند. در آزمايشات مشخص خواهد شد كه الگوريتم TFIDF-1-TEXT بهتر از الگوريتم TF-IDF و يكسري الگوريتم هاي مطرح ديگر است. همچنين نشان داده خواهد شد كه، الگوريتم optimized-RAKE از تمامي الگوريتم هاي مطرح شده در اين تحقيق بهتر است و خروجي مناسب¬تر و دقيق¬تري را توليد مي كند.
واژههاي كليدي: متن كاوي، استخراج عبارت كليدي، عبارت اسمي، برچسب بخش كلامي، فراواني عبارت، ماتريس همرخدادي، عبارات باقاعده، پردازش زبان طبيعي
تاريخ ورود اطلاعات
1397/01/20
تاريخ بهره برداري
4/9/2018 12:00:00 AM
دانشجوي وارد كننده اطلاعات
علي محمدي حسن كياده
چكيده به لاتين
Extracting key phrases is the core of automated processes that is done on text data. Therefore, in text mining algorithms, extracting key phrases are very important. In fact, extracting key phrases is a fundamental step in most of text mining projects, which researching on it and finding out the best way to extract key phrases from text that have the good accuracy and execution time, has a special importance. In fact these key phrases are used for categorizing, clustering, indexing, searching, summarizing, defining the semantic similarity of textual documents, and almost all other areas of text mining.
In this research, a new algorithm is proposed, which, in addition to the high speed of extracting key phrases, is more accurate than other algorithms in this field. In order to remove stopwords, an optimal and suitable list of stopwords is presented, that will increase the accuracy and speed of removing the stopwords from the input text. In addition, for extracting proper key phrases, a linguistic approach has been used. This approach, using both syntactic and lexical ways, identifies the suitable candidate pharses for processing and extracting key phrases.
Beside optimizations that mentioned above, other optimizations also are performed on all the algorithms proposed in this research, including TF-IDF and RAKE algorithms, and new algorithms like TFIDF-1-TEXT and optimized-RAKE are presented. Using four criteria including precision, Recall, F-score and Jaccard's similarity coefficient (JSC), it will be shown that these two algorithms provide better results than other algorithms. It will be determined in the experiments that TFIDF-1-TEXT algorithm is better than TF-IDF algorithm and some other algorithms. It will also be shown that optimized-RAKE algorithm is better than all the algorithms proposed in this research and it produces a more proper and precise output.
Keywords: text mining, key phrase extraction, noun phrase, Part-Of-Speech TAG, Term Frequency, Co-occurrence matrix, regular expression, Natural Language Processing