• شماره ركورد
    7260
  • پديد آورنده

    زهرا انوريان

  • عنوان
    مجموعه‌داده فارسي براي تشخيص شخصيت در بستر توييتر
  • مقطع تحصيلي
    كارشناسي
  • رشته تحصيلي
    مهندسي كامپيوتر
  • سال فارغ التحصيلي
    1400
  • استاد راهنما
    دكتر صالح اعتمادي
  • دانشجوي وارد كننده اطلاعات

    زهرا انوريان

  • تاريخ ورود اطلاعات
    1400/03/29
  • دانشكده
    مهندسي كامپيوتر
  • عنوان به انگليسي
    A Persian Dataset for Personality Detection on Twitter
  • چكيده
    در سال‌هاي اخير، شناخت ويژگي‌هاي شخصيتي افراد از طريق شبكه‌هاي اجتماعي به موضوعي جالب در هر دو زمينه پردازش زبان طبيعي و علوم اجتماعي تبديل شده است. تحقيقات روانشناختي همچنين نشان مي‌دهد برخي از ويژگي‌هاي شخصيتي با رفتار زباني ارتباط دارند. مدل‌هاي پردازش زبان طبيعي مي‌توانند از اين همبستگي براي مدل‌سازي و پيش‌بيني صفات شخصيتي، بر اساس حجم عظيمي از داده‌هاي موجود كه به لطف رسانه‌هاي اجتماعي مدرن در دسترس است، بهره بگيرند. پيش از اينكه بخواهيم اولين مجموعه‌داده در زبان فارسي را از طريق شبكه‌ اجتماعي توييتر جمع‌آوري و تدوين كنيم، هيچ مجموعه‌داده‌اي در اين زمينه در زبان فارسي وجود نداشته است. همانطور كه در اين مقاله مورد بحث قرار گرفت، ما يك مجموعه‌داده جديد ساخته‌ايم كه داراي برچسب شاخص‌هاي مدل مايرز-بريگز و متشكل از 1552532 توييت است. همچنين روش‌هاي جمع‌آوري اطلاعات خود را ارائه داده‌ايم و در مورد چالش‌ها و نتايج آن‌ها به طور مفصل بحث كرده‌ايم. به عنوان مبنايي براي ساير محققان براي پيشرفت بيشتر، يك مدل را با تنظيم دقيق تغييرات معماري برت، پارس‌برت، كه قبلاً روي متون‌هاي فارسي آموزش ديده است، معرفي كرده‌ايم. سرانجام، اين مدل را با استفاده از روش اعتبارسنجي متقاطع طبقه‌اي تكرارشونده K بخش، مجموعه‌داده را ارزيابي و نتايج را منتشر نموديم.
  • كليدواژه ها
    ويژگي‌هاي شخصيتي , علوم داده , مجموعه‌داده , داده‌هاي اجتماعي , پارس‌برت