شماره ركورد
6600
شماره راهنما(اين فيلد مربوط به كارشناس ميباشد لطفا آن را خالي بگذاريد)
6600
پديد آورنده
فاطمه كريم خاني
عنوان
غنيسازي بردار لغات با استفاده از شبكهي معنايي تارواژه به منظور بهبود عملكرد پردازشهاي زبان طبيعي
مقطع تحصيلي
كارشناسي
رشته تحصيلي
نرم افزار
سال فارغ التحصيلي
1398
استاد راهنما
دكتر بهروز مينايي بيدگلي
دانشجوي وارد كننده اطلاعات
فاطمه كريم خاني
تاريخ ورود اطلاعات
1398/09/25
دانشكده
كامپيوتر
عنوان به انگليسي
Enriching Word Vectors using Semantic Network of Tarvajeh to improve the Performance of Natural Language Processing
چكيده
تعبيهسازي واژه روشي است كه در سالهاي اخير براي رفع چالش پراكندگي بردارهاي لغات در پردازشهاي
زبان طبيعي مورد توجه قرار گرفته است. منابع دادهاي كه اغلب در روشهاي تعبيهسازي واژه مورد استفاده
قرار ميگيرد، پيكرههاي متني هستند كه از منابع رسمي (شامل سايتها، روزنامهها و ...) جمعآوري شدهاند.
از ضعفهاي مهم پيكرههاي متني ميتوان به رسمي بودن متون، تعلق به دامنههاي خاص (خبري، علمي و
...) و تعلق به بازهي زماني خاص اشاره نمود كه نتيجهي آنها عدم آشكارسازي صريح و دقيق روابط معنايي
ميان واژهها است. از سويي ديگر، مهمترين منبع كشف روابط معنايي واژهها آزمون همبستگي آزاد است. در
اين آزمون شناختي، شركتكنندگان به ازاي هر واژهاي كه به آنها ارائه ميشود، اولين واژه/واژگاني كه به
ذهن خود ميرسد را اعلام مينمايند. مزيت اصلي اين منبع داده، استفاده از ذهن ناخودآگاه انسان براي
آشكارسازي و كشف روابط معنايي واژهها است. در اين پروژه از شبكهي معنايي تارواژه به منظور غنيسازي
بردار لغات حاصل از روشهاي مختلف تعبيه سازي واژه استفاده ميشود. شبكهي معنايي تارواژه اولين و در
حال حاضر تنها منبع همبستگي آزاد واژهها در زبان فارسي كه تاكنون بيش از 500شركتكننده در آن
مشاركت نمودهاند و حدود 20هزار پاسخ به 200واژهي محرك گردآوري گشته است. منبع دادهاي كه در
اين تحقيق به منظور ايجاد بردار واژهها و همچنين ارزيابي نتايج پردازشهاي متن مورد استفاده قرار ميگيرد،
شبكهي اجتماعي توييتر است. در اين تحقيق به بررسي ميزان بهبود عملكرد پردازشهاي زباني با غنيسازي
بردار لغات به كمك شبكهي معنايي واژهها ميپردازيم