چکيده
استخراج رويداد يك وظيفه مهم در استخراج اطلاعات است كه يك زيرمجموعه از پردازش زبان طبيعي است. استخراج رويداد در زمينههاي مختلف (به عنوان مثال، مقالات خبري، وبلاگهاي وب، توييتها و غيره) و برنامههاي كاربردي مختلف (مانند پاسخ به پرسش، بازيابي اطلاعات و ...) اعمال شده است. هدف از استخراج رويداد استخراج اطلاعات ساختاري رويدادها از اسناد غيرساخت يافته است. اين امر بسيار ارزشمند خواهد بود اگر ما بتوانيم به طور خودكار اين رخدادها را شناسايي و به صورت موثري استخراج كنيم. با اين حال شناسايي و طبقهبندي رويدادها به سه دليل، يك مشكل چالش برانگيز است: اولين چالش عدم وجود اطلاعات آموزشي از ژانرها است، بنابراين سيستمهاي نظارت شده سنتي نميتوانند به راحتي با ژانرهاي جديد مطابقت يابند. به عنوان مثال استخراج رويداد به طور قابل توجهي در وبلاگها بدتر از متون خبرنامه انجام ميشود. انطباق يك استخراج كننده رويداد موجود با ژانر ديگر معمولا مستلزم همراه كردن آن با تفسير و اطلاعات اضافي است. چالش دوم از ژانرهاي غير رسمي مانند رسانههاي اجتماعي ميآيد. متن پيام رسانههاي اجتماعي معمولا كوتاه و ناقص است (به عنوان مثال، هر توييت داراي محدوديت طولي 240 كاراكتر است). در فقدان زمينه، يك توييت به تنهايي نميتواند تصويري كامل از رويداد مربوطه را ارائه دهد. چالش سوم ماهيت غير رسمي رسانههاي اجتماعي است. پيامهاي رسانههاي اجتماعي به صورت غير رسمي نوشته شده است كه باعث عملكرد ضعيف ابزارهاي پردازش زبان طبيعي ميشود زيرا اين ابزارها بيشتر براي سبكهاي رسمي طراحي شده است.
اين گزارش بر روي مقابله با چالشها براي استخراج رويداد در ژانرهاي مختلف تمركز ميكند، در حاليكه وابستگيهاي متقابل اجزاي مختلف و وظايف كوچكتر نيز معرفي ميشود. موضوع اصلي اين گزارش اين است كه به جاي انجام استخراج رويداد به صورت مجزا بر روي هر سند (به عنوان مثال يك جمله مقاله جديد يا يك پيام رسانههاي اجتماعي)، دانش درون ژانري و دانش بين ژانري را به عنوان دو نوع دانش پسزمينه براي تقويت عملكرد استخراج رويداد تركيب كرده و به كار گيرد. از سه ژانر اخبار، توييتها و پيامهاي فيسبوك به عنوان سه مورد مطالعه استفاده شده تا اثربخشي و كارآيي تكنيكهاي غنيسازي دانش را براي اعمال استخراج رويداد نشان دهند.