شماره ركورد
34770
پديد آورنده
اميرحسين درخشان
عنوان
ارائه چهارچوب تناقضيابي در دادههاي متني با استفاده از مدلهاي استنتاج زبان طبيعي
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
مهندسي كامپيوتر - نرم افزار
سال تحصيل
1402
تاريخ دفاع
1404/12/5
استاد راهنما
دكتر حسين رحماني
استاد مشاور
ندارم
دانشكده
مهندسي كامپيوتر
چكيده
كشف تناقض در متون در تشخيص اخبارهاي جعلي، تشخيص شايعات در شبكههاي اجتماعي و شناسايي گزارههاي غلط علمي كاربرد دارد. تشخيص تناقض بين دو جمله به عنوان يكي از زيرمجموعههاي حوزه استنتاج زبان طبيعي بسيار مورد توجه قرار گرفته است و مدلهاي متعددي براي آن توسعه داده شده است. با اين حال استفاده از اين مدلها براي استخراج زوج جملات متناقض از يك پيكره متني چندان مورد مطالعه قرار نگرفته است.
در اين پژوهش روشي به نام CETaD ارائه شده است كه با استفاده از مدلهاي آموزش ديده روي مجموعه دادههاي استنتاج زبان طبيعي به استخراج زوج جملات متناقض از يك پيكره متني ميپردازد. اين روش ابتدا يك شبكه عصبي سيامي را روي مجموعه دادههاي استنتاج زبان طبيعي آموزش ميدهد. در گام دوم، جملات موجود در پيكره متني را با استفاده از مدل زباني موجود در شبكه سيامي آموزش ديده به بردارهاي تعبيه تبديل ميكند. در نهايت، با تعيين نقاطي به عنوان نقاط نماينده در فضاي برداري و مقايسه بردار جملات با نقاط نماينده به استخراج زوج جملات متناقض به شيوهاي بهينه از پيكره ميپردازد. با توجه به امكان استخراج تعداد زيادي زوج جمله معيارهايي نيز براي مرتبسازي آنها توسعه داده شدهاند. اين معيارها مبتني بر شباهت دو جمله و كم كردن اثر باياسهاي موجود در داده آموزشي ميباشند.
تحليل نتايج نشان ميدهد جملات استخراج شده با CETaD با احتمال بيش از 85% توسط شبكه عصبي سيامي آموزش ديده متناقض دستهبندي ميشوند. همجنين با اعمال CETaD روي پيكرههاي ساخته شده با مجموعه دادههاي راستيآزمايي به ارزيابي دقيقتري از آن پرداختهايم. علاوه بر اين براي آگاهي از عملكرد CETaD روي دادههاي واقعي، CETaD روي چكيده مقالات پزشكي موجود در Pubmed نيز اعمال شده است و علاوه بر كسب دقت تا 60% موفق به تحليل نتايج و كشف برخي جملات متناقض اين حوزه شدهايم.
تاريخ ورود اطلاعات
1405/02/19
عنوان به انگليسي
Proposing a Contradiction Detection Framework in Textual Data Using Natural Language Inference Models
تاريخ بهره برداري
2/24/2027 12:00:00 AM
دانشجوي وارد كننده اطلاعات
اميرحسين درخشان
چكيده به لاتين
The detection of contradictions in texts has significant applications in identifying fake news, detecting rumors on social networks, and recognizing scientifically incorrect statements. Detecting contradictions between two sentences, as one of the subfields of Natural Language Inference (NLI), has received considerable attention, and numerous models have been developed for this task. However, the use of these models for extracting contradictory sentence pairs from a given text corpus has not been extensively studied.
In this study, a method named CETaD is proposed, which leverages pre-trained models on NLI datasets to extract contradictory sentence pairs from a text corpus. The approach first trains a Siamese neural network on NLI datasets. In the second step, sentences from the target text corpus are converted into vector embeddings using the pre-trained language model embedded within the Siamese network. Finally, by defining representative points in the embedding space and comparing sentence embeddings against these representative points, CETaD efficiently extracts contradictory sentence pairs in an optimized manner. Given the potential to generate a large number of candidate pairs, several ranking criteria have also been developed.
These criteria are based on the similarity between sentences and aim to reduce the impact of biases present in the training data.
Results analysis indicates that over 85% of the extracted sentence pairs are classified as contradictory by the trained Siamese neural network with high confidence. Furthermore, CETaD was evaluated on synthetic corpora constructed from factchecking datasets, enabling a more accurate assessment of its performance.
To assess its effectiveness on real-world data, CETaD was applied to abstracts of medical articles from PubMed. The method achieved a precision of up to 60% and successfully identified several contradictory statements within this domain, demonstrating its practical utility in detecting inconsistencies in scientific literature.
كليدواژه هاي فارسي
تناقضيابي , استنتاج زبان طبيعي , شبكههاي عصبي , تعبيهسازي جملات , شبكههاي عصبي سيامي , پردازش زبان طبيعي
كليدواژه هاي لاتين
Contradiction Detection , Natural Language Inference , Neural Networks , Sentence Embedding , Siamese Neural Networks , Natural Language Processing
Author
Amirhossein Derakhshan
SuperVisor
Dr. Hossein Rahmani