-
شماره ركورد
30295
-
پديد آورنده
محبوبه جانقربان
-
عنوان
استفاده از ترانسفورمرهاي توسعه يافته براي خلاصه سازي انتزاعي متون طولاني فارسي
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
مهندسي كامپيوتر
-
سال تحصيل
1399
-
تاريخ دفاع
1402/07/12
-
استاد راهنما
دكتر مرتضي آنالويي
-
دانشكده
كامپيوتر
-
چكيده
گر چه در سالهاي اخير مدلهاي ترانسفورمري توانستهاند در وظايف پردازش زبان طبيعي، نقش مهمي ايفا كنند و بهبودهاي چشمگيري در دقت و كارايي ايجاد كنند ولي همچنان مديريت وروديهاي طولاني، از چالشهاي بزرگ، در اين حوزه است و آموزش مدلهايي كه بتوانند، متنهاي طولاني را مديريت كنند، چه از نظر محاسباتي و چه از نظر مصرف حافظه، هزينهبر است. خلاصهسازي متن، از جمله وظايفي است كه معمولا داراي ورودي طولاني است، با توجه به رشد چشمگير اسناد منتشر شده در وب - اخبار و مقالات و... - طراحي سيستمي كارآمد كه بتواند با دقت بالا خلاصه متن را استخراج كند، اهميت روزافزوني پيدا كرده است. اكثر سيستمهايي كه براي وظيفه خلاصهسازي متون فارسي، ايجاد شدهاند، از نوع استخراجي هستند و مواردي كه خلاصهسازي انتزاعي را در دستوركار خود قرار دادهاند، طول متن ورودي را به 512 توكن محدود كردهاند. در اين پژوهش، تلاش شده است، با استفاده از كدگذار استاندارد كه از مكانيزم توجه كامل استفاده ميكند و نيز كدگذارهايي كه به منظور مديريت متون طولاني ايجاد شدهاند، وظيفه خلاصهسازي متون طولاني فارسي را انجام داده و اين كدگذارها را از نظر بهرهوري منابع و كارايي با يكديگر مقايسه كنيم. از بين دادگان موجود، تبيان و wiki-summary (V2)، كه از نظر محتوايي متفاوت هستند، مورد بررسي بيشتر قرار گرفتند. در دادگانwiki-summary (V2)، كه حاوي متون علمي است، كدگذارهاي موثر توانستند امتياز ROUGE-1 و ROUGE-L معادل با 33.67 و21.23 بدست آورند، كه نسبت به كدگذارهاي استاندارد (به ترتيب امتيازهاي 32.60 و 20.35 )، بهبود قابلتوجهي است.ولي در دادگان تبيان با محتواي خبري، ديده شد، مدل ترانسفورمري با كدگذار استاندارد، موفقتر عمل ميكند؛ ميتوان استنباط نمود كه در دادگان تبيان، در بيشتر اسناد، حتي اگر طول سند هم زياد باشد، مهمترين جملات در چند پاراگراف اول قرار گرفتهاند و محدود كردن طول ورودي و استفاده از كدگذارهاي استاندارد منطقيتر است.
-
تاريخ ورود اطلاعات
1402/10/11
-
عنوان به انگليسي
Leveraging extended transformers for Abstractive Summarization of Long Persian Texts
-
تاريخ بهره برداري
1/1/1900 12:00:00 AM
-
دانشجوي وارد كننده اطلاعات
محبوبه جانقربان
-
چكيده به لاتين
While large pretrained Transformer models have proven highly capable at tackling natural language tasks, handling long sequence inputs continues to be a significant challenge and training models that can handle long texts is costly, both computationally and memory-wise. One such task is long input summarization, where inputs are longer than the maximum input context of most pretrained models. considering the remarkable growth of documents published on the web - news and articles, etc. - Designing an efficient system that can extract the text summary with high accuracy is important. Most of the models that have been created for the task of summarizing Persian texts are of an extractive type, and those for abstractive summarization have limited the length of the input text to 512 tokens. In this research, an attempt has been made to investigate the task of summarizing long texts on Persian dataset by using encoders created for the purpose of managing long texts, and in terms of resource efficiency and performance it was compared with each other and the standard encoder (that use the full attention mechanism ). among the available dataset, Tebyan and wiki-summary(V2), which are different in terms of content, were further investigated. wiki-summary(V2) dataset is a dataset with scientific content and effective encoders were able to get a higher score, but Tebyan dataset which has news content, transformer models that use a standard encoder with full attention mechanism, won the competition. This shows that in tebyan dataset, in most documents, even if the length of the document is long, the most important sentences are placed in the first few paragraphs.
-
كليدواژه هاي فارسي
پردازش زبان طبيعي , متون طولاني , خلاصهسازي انتزاعي , مدلهاي ترانسفورمري , مكانيزم توجه
-
كليدواژه هاي لاتين
Natural Language Processing (NLP) , Long document , Abstractive summarization , Transformer Models , Self-Attention
-
Author
mahboobeh janghorban
-
SuperVisor
Morteza Analoui
-
لينک به اين مدرک :