چکيده
امروزه با پيشرفت تكنولوژي و دسترسي آسان همگان به وب و پايگاه¬ داده¬هاي بزرگ، سرقت علمي- ادبي به چالشي بزرگ براي محققان، ناشران و مؤسسات آموزشي بدل شده است، لذا تشخيص شباهت متون از جنبه¬هاي مختلفي همچون كپي برداري بدون حفظ امانت و ارجاع به منبع استفاده شده، كپي برداري با واسطه، شباهت معنايي و غيره حائز اهميت است.
همچنين با ازدياد مراكز علمي- آموزشي و رشد روز افزون محققين در كشور، نياز به روش-هايي كه به صورت اتوماتيك تقلب را تشخيص داده و از تكرار موضوعات و محتويات مستندات و مقالات جلوگيري نمايد، بيش از پيش احساس مي¬شود.
شناسايي تشابه متون، موضوعي كاربردي است كه مي¬توان با استفاده از يكي از روش¬هاي آماري، روش¬هاي مبتني بر ساختار زبان و يا روش¬هاي متن كاوي، از دو جنبه نحوي و معنايي بدان پرداخت. از آنجا كه اين موضوع از جهات مختلف حائز اهميت است، محققان و پژوهشگران زبان¬هاي مختلف بدان پرداخته¬اند. از جمله مباحث مطرح در اين زمينه مي¬توان به بازيابي اطلاعات، طبقه بندي متون، خوشه¬بندي اسناد، شناسايي سرقت علمي و ادبي، بهينه¬سازي بازيابي اطلاعات در موتورهاي جستجو، حذف متون كپي برداري شده از وب، استخراج پاسخ از سامانه-هاي پرسش و پاسخ، پيشنهاد عبارات جايگزين توسط موتورهاي جستجو براي عبارات جستجو شده توسط كاربران، شناسايي متون ويرايش شده در مديريت مستندات يك سازمان، تشخيص موضوع، ترجمه ماشيني، خلاصه سازي و ... اشاره نمود.
از ديگر سو، روش¬هاي مبتني بر ويژگي در تلاشند تا از ميان n2 زير مجموعه كانديد، بهترين زيرمجموعه را پيدا كنند. در تمام اين روش¬ها بر اساس كاربرد و نوع تعريف، زيرمجموعه¬اي به عنوان جواب انتخاب مي¬شود، كه بتواند مقدار يك تابع ارزيابي را بهينه كند.