محبوبه جانقربان

عنوان

استفاده از ترانسفورمرهاي توسعه يافته براي خلاصه سازي انتزاعي متون طولاني فارسي

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

مهندسي كامپيوتر

سال تحصيل

1399

تاريخ دفاع

1402/07/12

استاد راهنما

دكتر مرتضي آنالويي

دانشكده

كامپيوتر

چكيده

گر چه در سال‌هاي اخير مدل‌هاي ترانسفورمري توانسته‌اند در وظايف پردازش زبان طبيعي، نقش مهمي ايفا كنند و بهبودهاي چشم‌گيري در دقت و كارايي ايجاد كنند ولي همچنان مديريت ورودي‌هاي طولاني، از چالش‌هاي بزرگ، در اين حوزه است و آموزش مدل‌هايي كه بتوانند، متن‌هاي طولاني را مديريت كنند، چه از نظر محاسباتي و چه از نظر مصرف حافظه، هزينه‌بر است. خلاصه‌سازي متن، از جمله وظايفي است كه معمولا داراي ورودي طولاني است، با توجه به رشد چشم‌گير اسناد منتشر شده در وب - اخبار و مقالات و... - طراحي سيستمي كارآمد كه بتواند با دقت بالا خلاصه متن را استخراج كند، اهميت روزافزوني پيدا كرده است. اكثر سيستم‌هايي كه براي وظيفه خلاصه‌سازي متون فارسي، ايجاد شده‌اند، از نوع استخراجي هستند و مواردي كه خلاصه‌سازي انتزاعي را در دستور‌كار خود قرار داده‌اند، طول متن ورودي را به 512 توكن محدود كرده‌اند. در اين پژوهش، تلاش شده است، با استفاده از كدگذار استاندارد كه از مكانيزم توجه كامل استفاده مي‌كند و نيز كدگذار‌هايي كه به منظور مديريت متون طولاني ايجاد شده‌اند، وظيفه خلاصه‌سازي متون طولاني فارسي را انجام داده و اين كدگذارها را از نظر بهره‌وري منابع و كارايي با يكديگر مقايسه كنيم. از بين دادگان موجود، تبيان و wiki-summary (V2)، كه از نظر محتوايي متفاوت هستند، مورد‌ ‌بررسي بيشتر قرار گرفتند. در دادگانwiki-summary (V2)، كه حاوي متون علمي است، كدگذارهاي موثر توانستند امتياز ROUGE-1 و ROUGE-L معادل با 33.67 و21.23 بدست آورند، كه نسبت به كدگذارهاي استاندارد (به ترتيب امتيازهاي 32.60 و 20.35 )، بهبود قابل‌توجهي است.ولي در دادگان تبيان با محتواي خبري، ديده شد، مدل ترانسفورمري با كدگذار استاندارد،‌ موفق‌تر عمل مي‌كند؛ مي‌توان استنباط نمود كه در دادگان تبيان، در بيشتر اسناد، حتي اگر طول سند هم زياد باشد، مهم‌ترين جملات در چند پاراگراف اول قرار گرفته‌اند و محدود كردن طول ورودي و استفاده از كدگذارهاي استاندارد منطقي‌تر است.

تاريخ ورود اطلاعات

1402/10/11

عنوان به انگليسي

Leveraging extended transformers for Abstractive Summarization of Long Persian Texts

تاريخ بهره برداري

1/1/1900 12:00:00 AM

دانشجوي وارد كننده اطلاعات

محبوبه جانقربان

Name: محبوبه جانقربان
Author: محبوبه جانقربان

چكيده به لاتين

While large pretrained Transformer models have proven highly capable at tackling natural language tasks, handling long sequence inputs continues to be a signiﬁcant challenge and training models that can handle long texts is costly, both computationally and memory-wise. One such task is long input summarization, where inputs are longer than the maximum input context of most pretrained models. considering the remarkable growth of documents published on the web - news and articles, etc. - Designing an efficient system that can extract the text summary with high accuracy is important. Most of the models that have been created for the task of summarizing Persian texts are of an extractive type, and those for abstractive summarization have limited the length of the input text to 512 tokens. In this research, an attempt has been made to investigate the task of summarizing long texts on Persian dataset by using encoders created for the purpose of managing long texts, and in terms of resource efficiency and performance it was compared with each other and the standard encoder (that use the full attention mechanism ). among the available dataset, Tebyan and wiki-summary(V2), which are different in terms of content, were further investigated. wiki-summary(V2) dataset is a dataset with scientific content and effective encoders were able to get a higher score, but Tebyan dataset which has news content, transformer models that use a standard encoder with full attention mechanism, won the competition. This shows that in tebyan dataset, in most documents, even if the length of the document is long, the most important sentences are placed in the first few paragraphs.

كليدواژه هاي فارسي

پردازش زبان طبيعي , متون طولاني , خلاصه‌سازي انتزاعي , مدل‌هاي ترانسفورمري , مكانيزم توجه

كليدواژه هاي لاتين

Natural Language Processing (NLP) , Long document , Abstractive summarization , Transformer Models , Self-Attention

Author

mahboobeh janghorban

SuperVisor

Morteza Analoui

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=30295&Field=0&DTC=6