سينا زماني كشتلي

عنوان

بازيابي ادعاهاي راستي‌آزمايي‌شده به‌صورت چندزبانه و بين‌زباني

مقطع تحصيلي

كارشناسي

رشته تحصيلي

مهندسي كامپيوتر

سال فارغ التحصيلي

1403

استاد راهنما

سيد صالح اعتمادي

استاد مشاور

دانشجوي وارد كننده اطلاعات

سينا زماني كشتلي

Name: سينا زماني كشتلي
Author: سينا زماني كشتلي

تاريخ ورود اطلاعات

1403/12/21

دانشكده

مهندسي كامپيوتر

عنوان به انگليسي

Multilingual and Crosslingual Fact-Checked Claim Retrieva‎l

چكيده

افزايش حجم اطلاعات نادرست در حال انتشار در شبكه‌هاي اجتماعي، چالش‌هاي قابل‌توجهي را براي وظيفه حقيقت‌سنجي ادعاها ايجاد مي‌كند. براي شناسايي كارآمد اطلاعات نادرست، از مجموعه داده MultiClaim استفاده مي‌كنيم كه به‌طور ويژه براي بازيابي ادعاهاي از پيش بررسي‌شده طراحي شده است. اين وظيفه شامل بازيابي اطلاعات حقيقت‌سنجي‌شده‌ي مرتبط با يك ادعاي ورودي، مانند يك پست در شبكه‌هاي اجتماعي مي‌باشد و به‌منظور كمك به متخصصان حوزه تشخيص اطلاعات نادرست انجام مي‌شود. مجموعه‌داده MultiClaim گسترده‌ترين و متنوع‌ترين مجموعه داده از لحاظ زباني در حوزه موردنظر است كه شامل بيش از 28000 پست در شبكه‌هاي اجتماعي به 27 زبان، بيش از 205000 ادعاي از پيش‌ بررسي‌شده به 39 زبان، و بيش از 31000 نگاشت بين پست‌هاي شبكه‌هاي اجتماعي و ادعاهاي بررسي‌شده است. اين مجموعه همچنين شامل بيش از 4000 نگاشت بين‌زباني است كه در آن پست و ادعاي مربوطه به زبان‌هاي متفاوتي هستند. پژوهش ما بر روي بازيابي ادعاهاي چندزبانه و بين‌زباني تمركز دارد، كه تاكنون به‌طور گسترده مورد بررسي قرار نگرفته است، و يك معيار براي ارزيابي مدل‌هاي بازيابي ارائه مي‌دهد. ما آزمايش‌هاي بدون نمونه (Zero-shot) را بر روي مدل‌هاي پيش‌رو تك‌زبانه (انگليسي) و چندزبانه انجام داديم تا ميزان اثربخشي آن‌ها را در بازيابي ادعاها در زبان‌هاي مختلف ارزيابي كنيم. بر اساس ارزيابي‌هاي ادعاها، ما مدل‌هاي برتر را شناسايي كرده و آن‌ها را روي مجموعه‌داده ارائه‌شده، تنظيم دقيق (Fine-tune) كرديم تا عملكردشان را بهبود بخشيم. نتايج نشان مي‌دهد كه استفاده از ترجمه انگليسي داده‌ها به‌طور قابل‌توجهي دقت بازيابي را بهبود مي‌بخشد و تنظيم دقيق مدل‌ها باعث بهبود حداكثري عملكرد مدل‌ها مي‌شود. در انتها براي استفاده حداكثري از توانايي مدل هاي مختلف از روش راي اكثريت براي بدست آوردن نتايج استفاده كرديم. بهترين مدل ما به دقت 94٪ در داده هاي تك‌زبانه و دقت 87٪ در داده‌هاي بين‌زباني بر اساس معيار Success@10 دست يافت كه نسبت به روش هاي پيشين شاهد بهبود چشم‌گيري در عملكرد هستيم.

كليدواژه ها

بازيابي اطلاعات , اطلاعات نادرست , پردازش زبان طبيعي چندزبانه , حقيقت‌سنجي

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=9617&Field=0&DTC=12