چکيده
در حوزه پردازش زبان طبيعي، سادهسازي متن فرايندي است براي تغيير متن زبان طبيعي، هم به صورت دستور زباني و هم به صورت واژگاني، طوري كه ساختار دستوري و واژگان متن خروجي به نحو قابل توجهي سادهتر شود و خوانايي و فهمپذيري متن افزايش يابد و در عين حال اطلاعات و معاني اوليه حفظ شود. سادهسازي متن زمينهاي با رشد بسيار سريع است و در موضوعاتي مانند كمك به افرادي با توانايي پايين درك متون، كمك به زبانآموزان و به عنوان يك عمليات پيشپردازش در مسير فرايندهاي پردازش زبان طبيعي مانند استخراج دانش و متنكاوي كاربرد دارد. پيش از اين پژوهشهاي مروري بسيار كمي در زمينه سادهسازي متن صورت گرفته است و آخرين پژوهش قابل مروري قابل توجه در سال 2014 ميلادي انجام شده است. اين در حالي است كه از آن سال به بعد تعداد پژوهشها در اين حوزه سير تصاعدي داشته است. به همين دليل نياز به انجام يك پژوهش مروري جديد در اين زمينه احساس ميشود.
در اين سمينار بيش از340 پژوهش در حوزه سادهسازي متن طي سه دهه گذشته ميلادي، از 1990 تا 2019 ، شناسايي، بررسي، دسته بندي و جمعبندي ميشوند. رهيافتهاي متنوعي شامل رهيافتهاي دستور زباني، واژگاني، وابسته به نوع زبان، ترجمه ماشيني آماري، ترجمه ماشيني بر پايه شبكه عصبي و رهيافتهاي تركيبي كه براي سادهسازي متن وجود دارند بررسي خواهند شد. همچنين بررسيهاي بيشتري بر اساس ابَر-داده بهدست آمده در اين پژوهش روي مواردي همچون رهيافتها و الگوريتمها، چالشها، مجموعه دادگان، و روشهاي ارزيابي در حوزه سادهسازي متن ارائه خواهد شد. در ادامه بررسي بيشتري روي كاربرد سادهسازي متن به عنوان يك ابزار پيشپردازشي در استخراج دانش انجام خواهد شد. ثابت شده است كه سادهسازي متن، تاثير بزرگي بر دقت و بازخواني سامانههاي استخراج دانش دارد. اما با وجود چنين پتانسيلي، پژوهشها در اين زمينه ناچيز است. به همين جهت يك فصل به بررسي اهميت بالا و پتانسيل سادهسازي متن در استخراج دانش اختصاص مييابد. در انتهاي اين پژوهش، جمعبندي و بررسي پيشنهادهاي پژوهشهاي آتي انجام خواهد شد و در نهايت، همه پژوهشهايي كه در اين سمينار مرور شدهاند فهرست خواهند شد.