-
شماره ركورد
7260
-
پديد آورنده
زهرا انوريان
-
عنوان
مجموعهداده فارسي براي تشخيص شخصيت در بستر توييتر
-
مقطع تحصيلي
كارشناسي
-
رشته تحصيلي
مهندسي كامپيوتر
-
سال فارغ التحصيلي
1400
-
استاد راهنما
دكتر صالح اعتمادي
-
دانشجوي وارد كننده اطلاعات
زهرا انوريان
-
تاريخ ورود اطلاعات
1400/03/29
-
دانشكده
مهندسي كامپيوتر
-
عنوان به انگليسي
A Persian Dataset for Personality Detection on Twitter
-
چكيده
در سالهاي اخير، شناخت ويژگيهاي شخصيتي افراد از طريق شبكههاي اجتماعي به موضوعي جالب در هر دو زمينه پردازش زبان طبيعي و علوم اجتماعي تبديل شده است. تحقيقات روانشناختي همچنين نشان ميدهد برخي از ويژگيهاي شخصيتي با رفتار زباني ارتباط دارند. مدلهاي پردازش زبان طبيعي ميتوانند از اين همبستگي براي مدلسازي و پيشبيني صفات شخصيتي، بر اساس حجم عظيمي از دادههاي موجود كه به لطف رسانههاي اجتماعي مدرن در دسترس است، بهره بگيرند. پيش از اينكه بخواهيم اولين مجموعهداده در زبان فارسي را از طريق شبكه اجتماعي توييتر جمعآوري و تدوين كنيم، هيچ مجموعهدادهاي در اين زمينه در زبان فارسي وجود نداشته است. همانطور كه در اين مقاله مورد بحث قرار گرفت، ما يك مجموعهداده جديد ساختهايم كه داراي برچسب شاخصهاي مدل مايرز-بريگز و متشكل از 1552532 توييت است. همچنين روشهاي جمعآوري اطلاعات خود را ارائه دادهايم و در مورد چالشها و نتايج آنها به طور مفصل بحث كردهايم. به عنوان مبنايي براي ساير محققان براي پيشرفت بيشتر، يك مدل را با تنظيم دقيق تغييرات معماري برت، پارسبرت، كه قبلاً روي متونهاي فارسي آموزش ديده است، معرفي كردهايم. سرانجام، اين مدل را با استفاده از روش اعتبارسنجي متقاطع طبقهاي تكرارشونده K بخش، مجموعهداده را ارزيابي و نتايج را منتشر نموديم.
-
كليدواژه ها
ويژگيهاي شخصيتي , علوم داده , مجموعهداده , دادههاي اجتماعي , پارسبرت
-
لينک به اين مدرک :