شماره ركورد
19687
شماره راهنما(اين فيلد مربوط به كارشناس ميباشد لطفا آن را خالي بگذاريد)
۱۹۶۸۷
پديد آورنده
آيات جمعه
عنوان
بهبود رتبهبندي جملات در خلاصهسازي استخراجي، با استفاده از گراف دانش
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
نرم افزار
سال تحصيل
۱۳۹۷
تاريخ دفاع
۱۳۹۷/۰۷/۲۹
استاد راهنما
دكتر بهروز مينايي بيدگلي
دانشكده
كامپيوتر
چكيده
خلاصه سازي متن فرايند استخراج اطلاعات برجسته از منابع متني و ارائه اين اطلاعات به كاربر در قالب يك خلاصه است. خلاصه سازي اسناد بزرگ متني به طور دستي براي انسان ها بسيار دشوار است. رده بندي را مي توان به دو صورت انجام داد: خلاصه سازي استخراجي و خلاصه سازي انتزاعي. خلاصه سازي استخراجي با استفاده از ويژگي هاي آماري و زباني براي تعيين ويژگي هاي مهم و اتصال آنها به يك نسخه كوتاه تر استفاده مي كند. در حالي كه خلاصه سازي انتزاعي، سند را به طور كامل درك مي كند و سپس خلاصه را توليد مي كند. روش هاي انتزاعي بسيار پيچيده هستند، زيرا آنها نياز به پردازش گسترده زبان طبيعي دارند. بنابراين، جامعه پژوهشي بيشتر بر روي خلاصه هاي استخراجي تمركز مي كنند تا خلاصه هاي منسجم و معناداري را به دست آورند. در طول يك دهه، رويكردهاي استخراجي متعددي براي توليد خلاصه ساز اتوماتيك ايجاد شده است كه تعدادي از تكنيك هاي يادگيري و بهينه سازي ماشين را پياده مي كند.
روش پيشنهادي سامانه خلاصه سازي سند استخراج براي زبان فارسي است كه خلاصه اي خلاقانه از متون را با استفاده از سيستم خلاصه خودكار ما تشكيل مي دهد. جملات ورودي مهم، كه بايد در خلاصه قرار داده شوند، بر اساس استفاده از گراف دانش براي خلاصه سازي اتوماتيك شناسايي مي شوند. ايده كلي اين است كه نهادهاي دانش را در متن خالص و روابط ميان موجودات استخراج شده با يكديگر شناسايي كنيم. اين روابط به ما كمك كرد تا احكام مهم را با دادن رأي بالا به جمله هايي كه بيشترين امتياز در متن را دارند، شناسايي كنيم. علاوه بر اين، ما از روشهاي ديگر استفاده مي كنيم كه عبارتند از فركانس مدت - فركانس حكم معكوس (TF-ISF)، موقعيت احكام و طول جمله.
هدف از اين تحقيق توسعه روش هاي رتبه بندي جملات است كه خلاصه متناسب متن را با استفاده از گراف هاي دانش با نتايج ارزيابي بالا ايجاد كند.
تاريخ ورود اطلاعات
1397/09/03
عنوان به انگليسي
Improving sentence ranking in extractive summarization using Knowledge Graph
تاريخ بهره برداري
10/21/2018 12:00:00 AM
دانشجوي وارد كننده اطلاعات
آيات جمعه
چكيده به لاتين
Text summarization is the process of extracting salient information from the source text and present that information to a user in the form of a summary. It is very difficult for human beings to manually summarize large documents of text. Taxonomy of summarization methods includes two folds: extractive and abstractive summarization. Extractive summarization uses statistical and linguistic features to determine the important features and fuse them into a shorter version. Whereas abstractive summarization understands the whole document and then generates the summary. Abstractive methods are highly complex, as they need extensive natural language processing. Therefore, the research community is focusing more on extractive summaries, trying to achieve more coherent and meaningful summaries. Over a decade, several extractive approaches have been developed for the automatic summary generation that implements a number of machine learning and optimization techniques.
The proposed method is an extractive single document summarization system for the Persian language that forms informative summaries from texts by applying our auto summarization system. The important input sentences, which are to be inserted in the summary, are identified according to the use of the knowledge graph for automatic summarization. The general idea is to identify the entities in the raw text, and the relations between extracted entities with each other. These relationships helped us to determine important sentences by giving high rank to sentences that have the most related entities in the text. In addition, we use other methods, which are Term frequency - Inverse sentence frequency (TF-ISF), Sentence position and Sentence length. The proposed method has been compared with three text summarisation systems and techniques for the Persian language: FarsiSum, Ijaz, and HTM. Our proposed method achieves significantly better results than others do. The purpose of this research is to develop sentences ranking methods generating the effective summary of text by using a base of knowledge graph with high evaluation results of ROUGE-1, Recall, Precision, and F-measure.