-
شماره ركورد
9616
-
پديد آورنده
اميرمحمد ازادي
-
عنوان
بازيابي ادعاهاي راستيآزماييشده بهصورت چندزبانه و بينزباني
-
مقطع تحصيلي
كارشناسي
-
رشته تحصيلي
مهندسي كامپيوتر
-
سال فارغ التحصيلي
1403
-
استاد راهنما
دكتر سيد صالح اعتمادي
-
دانشجوي وارد كننده اطلاعات
اميرمحمد ازادي
-
تاريخ ورود اطلاعات
1403/12/21
-
دانشكده
مهندسي كامپيوتر
-
عنوان به انگليسي
Multilingual and Crosslingual Fact-Checked Claim Retrieval
-
چكيده
افزايش حجم اطلاعات نادرست در حال انتشار در شبكههاي اجتماعي، چالشهاي قابلتوجهي را براي وظيفه حقيقتسنجي ادعاها ايجاد ميكند. براي شناسايي كارآمد اطلاعات نادرست، از مجموعه داده MultiClaim استفاده ميكنيم كه بهطور ويژه براي بازيابي ادعاهاي از پيش بررسيشده طراحي شده است. اين وظيفه شامل بازيابي اطلاعات حقيقتسنجيشدهي مرتبط با يك ادعاي ورودي، مانند يك پست در شبكههاي اجتماعي ميباشد و بهمنظور كمك به متخصصان حوزه تشخيص اطلاعات نادرست انجام ميشود. مجموعهداده MultiClaim گستردهترين و متنوعترين مجموعه داده از لحاظ زباني در حوزه موردنظر است كه شامل بيش از 28000 پست در شبكههاي اجتماعي به 27 زبان، بيش از 205000 ادعاي از پيش بررسيشده به 39 زبان، و بيش از 31000 نگاشت بين پستهاي شبكههاي اجتماعي و ادعاهاي بررسيشده است. اين مجموعه همچنين شامل بيش از 4000 نگاشت بينزباني است كه در آن پست و ادعاي مربوطه به زبانهاي متفاوتي هستند. پژوهش ما بر روي بازيابي ادعاهاي چندزبانه و بينزباني تمركز دارد، كه تاكنون بهطور گسترده مورد بررسي قرار نگرفته است، و يك معيار براي ارزيابي مدلهاي بازيابي ارائه ميدهد. ما آزمايشهاي بدون نمونه (Zero-shot) را بر روي مدلهاي پيشرو تكزبانه (انگليسي) و چندزبانه انجام داديم تا ميزان اثربخشي آنها را در بازيابي ادعاها در زبانهاي مختلف ارزيابي كنيم. بر اساس ارزيابيهاي ادعاها، ما مدلهاي برتر را شناسايي كرده و آنها را روي مجموعهداده ارائهشده، تنظيم دقيق (Fine-tune) كرديم تا عملكردشان را بهبود بخشيم. نتايج نشان ميدهد كه استفاده از ترجمه انگليسي دادهها بهطور قابلتوجهي دقت بازيابي را بهبود ميبخشد و تنظيم دقيق مدلها باعث بهبود حداكثري عملكرد مدلها ميشود. در انتها براي استفاده حداكثري از توانايي مدل هاي مختلف از روش راي اكثريت براي بدست آوردن نتايج استفاده كرديم. بهترين مدل ما به دقت 94٪ در داده هاي تكزبانه و دقت 87٪ در دادههاي بينزباني بر اساس معيار Success@10 دست يافت كه نسبت به روش هاي پيشين شاهد بهبود چشمگيري در عملكرد هستيم.
-
كليدواژه ها
بازيابي اطلاعات , اطلاعات نادرست , پردازش زبان طبيعي چندزبانه , حقيقتسنجي
-
لينک به اين مدرک :