-
شماره ركورد
27465
-
پديد آورنده
پوريا پيروزفر
-
عنوان
ارائه روش تركيبي از مدلهاي مبتنيبر مبدلهاي چندزبانه براي بهبود شباهتيابي جملات
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
مهندسي كامپيوتر - نرم افزار
-
سال تحصيل
1399
-
تاريخ دفاع
1401/8/7
-
استاد راهنما
دكتر بهروز مينائي بيدگلي
-
دانشكده
مهندسي كامپيوتر
-
چكيده
شباهتيابي معنايي متون يكي از زيرشاخههاي پردازش زبان طبيعي است كه در چند سال اخير تحقيقات گستردهاي را به خود معطوف كردهاست. منظور از شباهتيابي معنايي، محاسبه ميزان شباهت معنايي بين دو سند متني، پاراگراف يا جمله است كه به دو صورت تكزبانه و چندزبانه مطرح است. هدف اصلي اين پايان نامه ارائه روشي بهبوديافته براي شباهتيابي بين جملاتي است كه زبان متفاوتي دارند؛ بعضي از روشهايي كه تاكنون ارائه شدهاند بصورت مستقيم و با ايجاد فضاي برداري يكسان اين عمل را انجام ميدهند و بعضي از آنها نيز از ترجمه ماشيني براي يكسان كردن زبان دو جمله استفاده ميكنند سپس با استفاده از روشهاي شباهتيابي جملات تكزبانه ميزان شباهت دو جمله را اندازهگيري ميكنند و اين ميزان شباهت با عددي بين 0 تا 5 مشخص ميشود.
در چند سال اخير مدلهاي زباني مبتني بر مبدلها ارائه شدهاند، كه زمينهي مناسبي براي پيشرفت در زمينه شباهتيابي متون را فراهم كردهاست و همين موضوع انگيزه ما براي اين پژوهش شدهاست و در روش ما اين مدلها با استفاده از مجموعه دادهاي كه توليد شده است تنظيم دقيق شدهاست و با استفاده از روش مناسبي، اين مدلها تركيب شدهاند و جهت شباهتيابي جملات بينزباني (زبان فارسي-انگليسي) مورد استفاده قرار گرفتهاست.
روشهاي تركيبي كه در اين پاياننامه ارائه شدهاست، علاوه بر حفظ مزاياي روشهاي پيشين، معايب آنها را برطرف مينمايد و نسبت به روشهاي پيشين و مدلهاي مبتنيبر مبدلها، براي كار شباهتيابي جملات بينزباني، بهبود حدود 10 تا 12 درصدي همبستگي پيرسون را براي جفت زبان فارسي – انگليسي به همراه داشتهاست.
-
تاريخ ورود اطلاعات
1401/08/28
-
عنوان به انگليسي
An ensemble method of models based on multilingual transformers to improve textual similarity
-
تاريخ بهره برداري
10/29/2023 12:00:00 AM
-
دانشجوي وارد كننده اطلاعات
پوريا پيروزفر
-
چكيده به لاتين
Semantic textual similarity is one of the sub-branches of natural language processing, which has attracted extensive research in recent years. The meaning of semantic similarity is to calculate the degree of semantic similarity between two text documents, paragraphs or sentences, which are considered in both monolingual and multilingual ways. The main goal of this thesis is to present an improved method for finding similarities between sentences that have different languages; Some of the methods that have been presented so far do this directly and by creating the same vector space, and some of them also use translation machines to make the language of two sentences the same, then measure the similarity of the two sentences using monolingual sentence similarity methods and this degree of similarity is determined by a number between 0 and 5.
In the last few years, linguistic models based on transformers have been presented, which has provided a suitable ground for progress in the field of textual similarity, and this has motivated us for this research, and in our method, these models have been fine-tuned using the data set that has been produced, and by using a suitable method, these models have been combined and used to find the similarity of cross lingual sentences (Persian-English language).
The ensemble methods presented in this thesis, in addition to maintaining the advantages of the previous methods, remove their disadvantages, and compared to the previous methods and models based on transformers, for the task of cross lingual semantic textual similarity, the pearson correlation for language pairs of Persian-English is improved by up to 12%.
-
كليدواژه هاي فارسي
شباهتيابي جملات , جملات بينزباني , بازنمايي جملات
-
كليدواژه هاي لاتين
sentence similarity , cross lingual sentences , sentence representation
-
Author
Poorya Piroozfar
-
SuperVisor
Behrouz Minaei Bidgoli
-
لينک به اين مدرک :