-
شماره ركورد
7462
-
پديد آورنده
محمدامين طاهري
-
عنوان
نورواژه: يك دادگان معيار براي استخراج عبارات كليدي از مقالات فارسي زبان
-
مقطع تحصيلي
كارشناسي
-
رشته تحصيلي
مهندسي كامپيوتر
-
سال فارغ التحصيلي
1400
-
استاد راهنما
دكتر بهروز مينايي - دكتر عادل تركمان رحماني
-
استاد مشاور
دكتر بهروز مينايي - دكتر عادل تركمان رحماني
-
دانشجوي وارد كننده اطلاعات
محمدامين طاهري
-
تاريخ ورود اطلاعات
1400/08/01
-
دانشكده
مهندسي كامپيوتر
-
عنوان به انگليسي
Noorvajeh: A Benchmark Dataset for Key-phrase Extraction from Persian Articles
-
چكيده
كليدواژگان، مهمترين كلمات و عبارات يك متن مي باشند كه ايده ي اصلي و بنيادين يك متن را در قالب
عباراتي كوتاه، مختصر و مفيد بيان مي كنند. استخراج عبارات و كلمات كليدي به مثابه هسته ي پردازش هاي
خودكاري مي باشد كه بر روي متن ها انجام مي گيرند. بر اين اساس، استخراج عبارات كليدي در الگوريتم هاي
كاوش متن (متن كاوي) بسيار حائز اهمّيت تلقّي مي شود. از كلمات كليدي مي توان در وظايف مختلف پردازش
زبان طبيعي مانند دسته بندي اسناد متني ،خوشه بندي متون ،خلاصه سازي ،تحليل متون و مانند آن نيز
بهره برد. تاكنون، دادگان هاي متعدّدي در ارتباط با استخراج كليدواژه از متون فارسي ارائه گرديده است كه در بسياري
از آن ها، تنها به كليدواژگان ارائه شده از سوي نويسندگان بسنده شده است. اين كليدواژگان، عموماً تمامي
كلمات كليدي موجود در متن را پوشش نمي دهند و همين طور، براي دادگان آموزشي و يا دادگان آزمون
مدل هاي پردازش زبان طبيعي كفايت نمي كنند. به همين جهت، در اين پژوهش، دادگاني معرفي مي شود كه
علاوه بر كلمات كليدي نويسندگان، شامل عبارات كليدي استخراج شده توسط جمعي از خبرگان نيز مي باشد. در پژوهش پيش رو، چندين روش بدون نظارت مبتني بر گراف براي استخراج عبارات كليدي صريح بر روي
دادگان ارائه شده، آزمايش شده و نتايج آنها بررسي مي شود. هدف از ارزيابي دادگان بواسطه ي اين روش ها
بررسي نتايج و نشان دادن اين امر است كه دادگان پيش گفته، به عنوان يك دادگان معيار در استخراج عبارات
كليدي از مقالات فارسي قابل ارائه است.
-
كليدواژه ها
دادگان استخراج كليدواژه , زبان شناسي محاسباتي , روش هاي بي ناظر مبتني بر گراف , بازيابي اطلاعات , پردازش زبان طبيعي
-
لينک به اين مدرک :