• شماره ركورد
    27465
  • پديد آورنده

    پوريا پيروزفر

  • عنوان
    ارائه روش تركيبي از مدل‌هاي مبتني‌بر مبدل‌هاي چندزبانه براي بهبود شباهت‌يابي جملات
  • مقطع تحصيلي
    كارشناسي ارشد
  • رشته تحصيلي
    مهندسي كامپيوتر - نرم افزار
  • سال تحصيل
    1399
  • تاريخ دفاع
    1401/8/7
  • استاد راهنما
    دكتر بهروز مينائي بيدگلي
  • دانشكده
    مهندسي كامپيوتر
  • چكيده
    شباهت‌يابي معنايي متون يكي از زيرشاخه‌هاي پردازش زبان طبيعي است كه در چند سال اخير تحقيقات گسترده‌اي را به خود معطوف كرده‌است. منظور از شباهت‌يابي معنايي، محاسبه ميزان شباهت معنايي بين دو سند متني، پاراگراف يا جمله است كه به دو صورت تك‌زبانه و چندزبانه مطرح است. هدف اصلي اين پايان نامه ارائه روشي بهبود‌يافته براي شباهت‌يابي بين جملاتي است كه زبان متفاوتي دارند؛ بعضي از روش‌هايي كه تاكنون ارائه شده‌اند بصورت مستقيم و با ايجاد فضاي برداري يكسان اين عمل را انجام مي‌دهند و بعضي از آن‌ها نيز از ترجمه ماشيني براي يكسان كردن زبان دو جمله استفاده مي‌كنند سپس با استفاده از روش‌هاي شباهت‌يابي جملات تك‌زبانه ميزان شباهت دو جمله را اندازه‌گيري مي‌كنند و اين ميزان شباهت با عددي بين 0 تا 5 مشخص مي‌شود. در چند سال اخير مدل‌هاي زباني مبتني بر مبدل‌ها ارائه شده‌اند، كه زمينه‌ي مناسبي براي پيشرفت در زمينه شباهت‌يابي متون را فراهم كرده‌است و همين موضوع انگيزه ما براي اين پژوهش شده‌است و در روش ما اين مدل‌ها با استفاده از مجموعه داده‌اي كه توليد شده است تنظيم دقيق شده‌است و با استفاده از روش مناسبي، اين مدل‌ها تركيب شده‌اند و جهت شباهت‌يابي جملات بين‌زباني (زبان فارسي-انگليسي) مورد استفاده قرار گرفته‌است. روش‌هاي تركيبي كه در اين پايان‌نامه ارائه شده‌است، علاوه ‌بر حفظ مزاياي روش‌هاي پيشين، معايب آن‌ها را برطرف مي‌نمايد و نسبت به روش‌هاي پيشين و مدل‌هاي مبتني‌بر مبدل‌ها، براي كار شباهت‌يابي جملات بين‌زباني، بهبود حدود 10 تا 12 درصدي همبستگي پيرسون را براي جفت زبان فارسي – انگليسي به همراه داشته‌است.
  • تاريخ ورود اطلاعات
    1401/08/28
  • عنوان به انگليسي
    An ensemble method of models based on multilingual transformers to improve textual similarity
  • تاريخ بهره برداري
    10/29/2023 12:00:00 AM
  • دانشجوي وارد كننده اطلاعات

    پوريا پيروزفر

  • چكيده به لاتين
    Semantic textual similarity is one of the sub-branches of natural language processing, which has attracted extensive research in recent years. The meaning of semantic similarity is to calculate the degree of semantic similarity between two text documents, paragraphs or sentences, which are considered in both monolingual and multilingual ways. The main goal of this thesis is to present an improved method for finding similarities between sentences that have different languages; Some of the methods that have been presented so far do this directly and by creating the same vector space, and some of them also use translation machines to make the language of two sentences the same, then measure the similarity of the two sentences using monolingual sentence similarity methods and this degree of similarity is determined by a number between 0 and 5. In the last few years, linguistic models based on transformers have been presented, which has provided a suitable ground for progress in the field of textual similarity, and this has motivated us for this research, and in our method, these models have been fine-tuned using the data set that has been produced, and by using a suitable method, these models have been combined and used to find the similarity of cross lingual sentences (Persian-English language). The ensemble methods presented in this thesis, in addition to maintaining the advantages of the previous methods, remove their disadvantages, and compared to the previous methods and models based on transformers, for the task of cross lingual semantic textual similarity, the pearson correlation for language pairs of Persian-English is improved by up to 12%.
  • كليدواژه هاي فارسي
    شباهت‌يابي جملات , جملات بين‌زباني , بازنمايي جملات
  • كليدواژه هاي لاتين
    sentence similarity , cross lingual sentences , sentence representation
  • Author
    Poorya Piroozfar
  • SuperVisor
    Behrouz Minaei Bidgoli