چکيده
باگذشت زمان، حجم متنهايي كه در روز توليد ميشوند بهصورت چشمگيري در حال افزايش است. اين حجم زياد از متن كه غالباً بدون ساختار هستند را ميتوان توسط كامپيوتر پردازش و درك نمود. متنكاوي وظيفه استخراج اطلاعات معنيدار از متن را بر عهده دارد كه در سالهاي اخير توجه بسياري از محققان را به خود جلب كرده است. امروزه دادههاي متني به دليل حجم فراوان در فرمهاي مختلفي مانند شبكههاي اجتماعي، پرونده بيماران، اطلاعات بيمه درماني، رسانههاي خبري و غيره ايجاد ميشوند. علت اهميت روزافزون اين دادههاي بزرگ، اطلاعات دقيقي است كه ميتوان از آنها استخراج كرد. به همين دليل بسياري از سازمانهاي عمومي و خصوصي در مقياس بزرگ در حال جمعآوري اطلاعات تحت دامنههاي اختصاصي خود هستند. از اين اطلاعات ميتوان در مسائلي مانند امنيت ملي و سايبري، تشخيص تقلب، بازاريابي، تحليل احساسات و غيره استفاده كرد.
درك و پردازش اين طيف وسيع از متن براي انسان تقريبا غير ممكن است و به همين خاطر به كامپيوتر نياز است. متنكاوي يك فرايند چند مرحلهاي است. مرحله اول متنكاوي پيشپردازش است كه ميتواند تاثير زيادي در دقت داشته باشد. پس از پيشپردازش، يكي از مهمترين مراحلي كه بايد انجام شود استخراج و انتخاب ويژگيها است. در بسياري از الگوريتمهاي مورداستفاده در متنكاوي استخراج ويژگيها از پيش بهصورت دستي انجام ميشوند. استخراج دستي ويژگيها معمولاً زمانبر، ناقص و كمدقت است؛ بنابراين نياز به الگوريتمهايي است كه بهصورت خودكار اين ويژگيها را استخراج كرده و تحليل نمايند. ازجمله روشهايي كه بهصورت خودكار به استخراج ويژگيها ميپردازد ميتوان به روشهاي مبتني بر شبكههاي عصبي عميق اشاره كرد كه اخيراً بسيار مورد توجه واقع شده است. شبكههاي عصبي عميق به سرعت در حال پيشرفت هستند. محققان اين حوزه در طي چند سال گذشته دستاوردهاي بزرگي در تحليل دادههاي متني داشتهاند و ايدههاي جديدي در پردازش زبان طبيعي ارائه كردهاند. پس از استخراج و انتخاب ويژگي، ميتوان از آن براي خوشهبندي، ردهبندي و غيره استفاده كرد. ما در اين سمينار به بررسي شبكه عصبي عميق براي تحليل دادههاي متني ميپردازيم.