شماره ركورد
9752
پديد آورنده
نازنين زارعي راد
عنوان
نظارت پويا بر محتواي خصمانه در توييتر فارسي با استفاده از نظريه بازي استكلبرگ
مقطع تحصيلي
كارشناسي
رشته تحصيلي
علوم كامپيوتر
سال فارغ التحصيلي
1404
استاد راهنما
استاد ابراهيم اردشير لاريجاني
استاد مشاور
استاد ابراهيم اردشير لاريجاني
دانشجوي وارد كننده اطلاعات
نازنين زارعي راد
تاريخ ورود اطلاعات
1404/06/21
دانشكده
رياضي و علوم كامپيوتر
عنوان به انگليسي
DAMPT: Dynamic Adversarial Moderation for Persian Twitter Using Stackelberg Game Theory
چكيده
ظهور سريع مدلهاي زباني بزرگ (LLM) انقلابي در پردازش زبان طبيعي به وجود آورده است، اما در عين حال آسيبپذيريهاي امنيتي مهمي را نيز آشكار كرده است. براي مقابله با اين چالشها، روشهاي تقابلي مانند AutoDAN براي توليد محتواي مضر به كار ميروند كه سپس براي تقويت دفاعهاي LLM مورد استفاده قرار ميگيرند. در اين مقاله، ما سيستم DAMPT (مديريت تقابلي پويا براي توييتر فارسي) را معرفي ميكنيم، سيستمي كه مديريت محتوا را بهعنوان يك بازي سهنفره استاكلبرگ بين كاربران، دشمنان و يك مدير مدلسازي ميكند. DAMPT يك شناسگر سمّيت مبتني بر LLM كه بهطور دقيق تنظيم شده است، شبيهساز حملات تقابلي فارسي و آستانهگذاري تطبيقي از طريق بهينهسازي دو سطحي را تركيب ميكند. ما اثربخشي DAMPT را بر روي توييتهاي فارسي واقعي و تقابلي نشان ميدهيم و توانايي آن را در پيشبيني و كاهش محتواي تقابلي اثبات ميكنيم.
كليدواژه ها
پردازش زبان طبيعي فارسي , شناسايي محتواي سمّي , بازي استاكلبرگ