اميرحسين درخشان

عنوان

ارائه چهارچوب تناقض‌يابي در داده‌هاي متني با استفاده از مدل‌هاي استنتاج زبان طبيعي

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

مهندسي كامپيوتر - نرم افزار

سال تحصيل

1402

تاريخ دفاع

1404/12/5

استاد راهنما

دكتر حسين رحماني

استاد مشاور

ندارم

دانشكده

مهندسي كامپيوتر

چكيده

كشف تناقض در متون در تشخيص اخبارهاي جعلي، تشخيص شايعات در شبكه‌هاي اجتماعي و شناسايي گزاره‌هاي غلط علمي كاربرد دارد. تشخيص تناقض بين دو جمله به عنوان يكي از زيرمجموعه‌هاي حوزه استنتاج زبان طبيعي بسيار مورد توجه قرار گرفته است و مدل‌هاي متعددي براي آن توسعه داده شده است. با اين حال استفاده از اين مدل‌ها براي استخراج زوج جملات متناقض از يك پيكره متني چندان مورد مطالعه قرار نگرفته است. در اين پژوهش روشي به نام CETaD ارائه شده است كه با استفاده از مدل‌هاي آموزش ديده روي مجموعه ‌داده‌هاي استنتاج زبان طبيعي به استخراج زوج جملات متناقض از يك پيكره متني مي‌پردازد. اين روش ابتدا يك شبكه عصبي سيامي را روي مجموعه‌ داده‌هاي استنتاج زبان طبيعي آموزش مي‌دهد. در گام دوم، جملات موجود در پيكره متني را با استفاده از مدل زباني موجود در شبكه سيامي آموزش ديده به بردارهاي تعبيه تبديل مي‌كند. در نهايت، با تعيين نقاطي به عنوان نقاط نماينده در فضاي برداري و مقايسه بردار جملات با نقاط نماينده به استخراج زوج جملات متناقض به شيوه‌اي بهينه از پيكره مي‌پردازد. با توجه به امكان استخراج تعداد زيادي زوج جمله معيارهايي نيز براي مرتب‌سازي آن‌ها توسعه داده شده‌اند. اين معيارها مبتني بر شباهت دو جمله و كم كردن اثر باياس‌هاي موجود در داده آموزشي مي‌باشند. تحليل نتايج نشان مي‌دهد جملات استخراج شده با CETaD با احتمال بيش از 85% توسط شبكه عصبي سيامي آموزش ديده متناقض دسته‌بندي مي‌شوند. همجنين با اعمال CETaD روي پيكره‌هاي ساخته شده با مجموعه‌ داده‌هاي راستي‌آزمايي به ارزيابي دقيق‌تري از آن پرداخته‌ايم. علاوه بر اين براي آگاهي از عملكرد CETaD روي داده‌هاي واقعي، CETaD روي چكيده مقالات پزشكي موجود در Pubmed نيز اعمال شده است و علاوه بر كسب دقت تا 60% موفق به تحليل نتايج و كشف برخي جملات متناقض اين حوزه شده‌ايم.

تاريخ ورود اطلاعات

1405/02/19

عنوان به انگليسي

Proposing a Contradiction Detection Framework in Textual Data Using Natural Language Inference Models

تاريخ بهره برداري

2/24/2027 12:00:00 AM

دانشجوي وارد كننده اطلاعات

اميرحسين درخشان

Name: اميرحسين درخشان
Author: اميرحسين درخشان

چكيده به لاتين

The detection of contradictions in texts has significant applications in identifying fake news, detecting rumors on social networks, an‎d recognizing scientifically incorrect statements. Detecting contradictions between two sentences, as one of the subfields of Natural Language Inference (NLI), has received considerable attention, an‎d numerous models have been developed for this task. However, the use of these models for extracting contradictory sentence pairs from a given text corpus has not been extensively studied. In this study, a method named CETaD is proposed, which leverages pre-trained models on NLI datasets to extract contradictory sentence pairs from a text corpus. The approach first trains a Siamese neural network on NLI datasets. In the second step, sentences from the target text corpus are converted into vector embeddings using the pre-trained language model embedded within the Siamese network. Finally, by defining representative points in the embedding space an‎d comparing sentence embeddings against these representative points, CETaD efficiently extracts contradictory sentence pairs in an optimized manner. Given the potential to generate a large number of can‎didate pairs, several ranking criteria have also been developed. These criteria are based on the similarity between sentences an‎d aim to reduce the impact of biases present in the training data. Results analysis indicates that over 85% of the extracted sentence pairs are classified as contradictory by the trained Siamese neural network with high confidence. Furthermore, CETaD was eva‎luated on synthetic corpora constructed from factchecking datasets, enabling a more accurate assessment of its performance. To assess its effectiveness on real-world data, CETaD was applied to abstracts of medical articles from PubMed. The method achieved a precision of up to 60% an‎d successfully identified several contradictory statements within this domain, demonstrating its practical utility in detecting inconsistencies in scientific literature.

كليدواژه هاي فارسي

تناقض‌يابي , استنتاج زبان طبيعي , شبكه‌هاي عصبي , تعبيه‌سازي جملات , شبكه‌هاي عصبي سيامي , پردازش زبان طبيعي

كليدواژه هاي لاتين

Contradiction Detection , Natural Language Inference , Neural Networks , Sentence Embedding , Siamese Neural Networks , Natural Language Processing

Author

Amirhossein Derakhshan

SuperVisor

Dr. Hossein Rahmani

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=34770&Field=0&DTC=6