• شماره ركورد
    9752
  • پديد آورنده

    نازنين زارعي راد

  • عنوان
    نظارت پويا بر محتواي خصمانه در توييتر فارسي با استفاده از نظريه بازي استكلبرگ
  • مقطع تحصيلي
    كارشناسي
  • رشته تحصيلي
    علوم كامپيوتر
  • سال فارغ التحصيلي
    1404
  • استاد راهنما
    استاد ابراهيم اردشير لاريجاني
  • استاد مشاور
    استاد ابراهيم اردشير لاريجاني
  • دانشجوي وارد كننده اطلاعات

    نازنين زارعي راد

  • تاريخ ورود اطلاعات
    1404/06/21
  • دانشكده
    رياضي و علوم كامپيوتر
  • عنوان به انگليسي
    DAMPT: Dynamic Adversarial Moderation for Persian Twitter Using Stackelberg Game Theory
  • چكيده
    ظهور سريع مدل‌هاي زباني بزرگ (LLM) انقلابي در پردازش زبان طبيعي به وجود آورده است، اما در عين حال آسيب‌پذيري‌هاي امنيتي مهمي را نيز آشكار كرده است. براي مقابله با اين چالش‌ها، روش‌هاي تقابلي مانند AutoDAN براي توليد محتواي مضر به كار مي‌روند كه سپس براي تقويت دفاع‌هاي LLM مورد استفاده قرار مي‌گيرند. در اين مقاله، ما سيستم DAMPT (مديريت تقابلي پويا براي توييتر فارسي) را معرفي مي‌كنيم، سيستمي كه مديريت محتوا را به‌عنوان يك بازي سه‌نفره استاكلبرگ بين كاربران، دشمنان و يك مدير مدلسازي مي‌كند. DAMPT يك شناسگر سمّيت مبتني بر LLM كه به‌طور دقيق تنظيم شده است، شبيه‌ساز حملات تقابلي فارسي و آستانه‌گذاري تطبيقي از طريق بهينه‌سازي دو سطحي را تركيب مي‌كند. ما اثربخشي DAMPT را بر روي توييت‌هاي فارسي واقعي و تقابلي نشان مي‌دهيم و توانايي آن را در پيش‌بيني و كاهش محتواي تقابلي اثبات مي‌كنيم.
  • كليدواژه ها
    پردازش زبان طبيعي فارسي , شناسايي محتواي سمّي , بازي استاكلبرگ