-
شماره ركورد
31780
-
پديد آورنده
فاطمه قمبري
-
عنوان
رده بندي داده هاي متني به كمك تكنيكهاي انطباق معنايي
-
مقطع تحصيلي
ارشد
-
رشته تحصيلي
نرم افزار
-
سال تحصيل
1400
-
تاريخ دفاع
27 شهريور 1403
-
استاد راهنما
دكتر حسين رحماني
-
استاد مشاور
--
-
دانشكده
كامپيوتر
-
چكيده
با پيشرفت تكنولوژي و افزايش حجم دادههاي متني، نياز به روشهاي مؤثر براي استخراج اطلاعات و يافتن ارتباطات معنايي بين اسناد طولاني، بيش از پيش احساس ميشود. تطبيق معنايي اسناد، به عنوان چالشي اساسي در حوزه پردازش زبانطبيعي، به دليل پيچيدگيهاي ذاتي در پردازش متون طولاني، از جمله وابستگيهاي دوربرد، ساختار پيچيده و تنوع موضوعي، مورد توجه قرار گرفته است. تكنيكهاي پيشين انطباقمعنايي، عمدتاً بر روي تطبيق متون كوتاه يا پاراگرافها متمركز بوده است، زيرا پردازش اسناد طولاني به منابع محاسباتي بيشتري نياز داشته و الگوريتمهاي پيچيدهتري را ميطلبد .اين پژوهش با هدف بهبود اين چالشها، دو مدل جديد براي ردهبندي و تحليل اسناد طولاني ارائه ميدهد كه بر روي جملات كليدي تمركز دارند.
مدل EnSeLDoMS با استفاده از يك خلاصهكننده سند، جملههاي كليدي را شناسايي كرده و سپس از ترنسفورمرها و روش تحليل معنايي نهفته براي يادگيري روابط معنايي بين اين جملات استفاده ميكند، به اين ترتيب از نقاط قوت چندين مدل مجزا براي بهبود دقت وظيفه انطباقمعنايي اسناد بلند بهرهبرديم. در نهايت از روش راي اكثريت براي تعيين امتياز شباهت نهايي و ردهبندي متن استفاده نموديم.
مدل SeMaforLoVS-Gبا ايجاد يك گراف شباهت بين متون، عملكرد عميقتري ارائه ميدهد. اين مدل از يك خلاصهساز براي استخراج اطلاعات كليدي و از پيمانههاي مدل EnSeLDoMS براي توليد بردارهاي معنايي استفاده ميكند و سپس از شبكههاي عصبي پيچشي گراف براي يافتن روابط بين اسناد در گراف بهره ميبرد.
نتايج نشان ميدهد كه هر دو مدل پيشنهادي با دقتهاي 51/98 براي SeMaforLoVS-Gو 23/95 درصدي براي EnSeLDoMS، عملكردي بهتر از مدلهاي مشابه و پايه دارند. اين مدلها با تمركز بر جملات كليدي، سرعت پردازش و ردهبندي را در دادههاي متني بلند، به طور قابل توجهي افزايش ميدهند.
-
تاريخ ورود اطلاعات
1403/10/04
-
عنوان به انگليسي
classification of textual data using semantic document matching techniques
-
تاريخ بهره برداري
9/17/2024 12:00:00 AM
-
دانشجوي وارد كننده اطلاعات
فاطمه قمبري
-
چكيده به لاتين
With the advancement of technology and the exponential growth of textual data, the need for effective methods to extract information and discover semantic relationships between long documents has become increasingly pressing. Semantic document matching, a fundamental challenge in natural language processing, has attracted significant attention due to the inherent complexities of processing long texts, including long-range dependencies, intricate structures, and diverse topics.
Previous semantic matching techniques have primarily focused on short texts or paragraphs as processing long documents requires more computational resources and complex algorithms. This research aims to address these challenges by introducing two novel models for classifying and analyzing long documents that focus on key sentences.
EnSeLDoMS employs a document summarizer to identify key sentences and then utilizes transformers and latent semantic analysis to learn semantic relationships between these sentences, leveraging the strengths of multiple models to enhance the accuracy of long document matching tasks. Finally, a majority voting approach is used to determine the final similarity score and classify the text.
SeMaforLoVS-G offers a deeper performance by creating a similarity graph between texts. This model uses a summarizer to extract key information and the components of the EnSeLDoMS model to generate semantic vectors. Subsequently, graph convolutional neural networks are employed to discover relationships between documents within the graph.
The results demonstrate that both proposed models outperform similar and baseline models with accuracies of 98.51% for SeMaforLoVS-G and 95.23% for EnSeLDoMS. By focusing on key sentences, these models significantly improve processing speed and classification in long textual data.
-
كليدواژه هاي فارسي
رده بندي متن , تكنيك هاي تطبيق معنايي , روابط معنايي , شبكه عصبي گراف پيچشي
-
كليدواژه هاي لاتين
text classification , semantic matching techniques , semantic relationships , convolutional graph neural netwrok
-
Author
fateme qambari
-
SuperVisor
hossein rahmani
-
لينک به اين مدرک :