چكيده
چكيده
اينترنت حجم عظيمي از اطلاعات با ساختارهاي گوناگون را در خود جايداده است. مدتهاست كهدانشمندان روي سامانههاي استخراج اطلاعات از متون ساختارنيافته كار ميكنند؛ سامانههايي كه به صورتانعطافپذير و قابل اطمينان، صفحات وب را به ساختارهاي مناسبي براي سامانههاي نرمافزاري، مانندپايگاه داده رابطهاييا دادههاي انديسگذاريشده، تبديل كنند. از اواسط دهه گذشته ميلادي تلاشهايبسياري صورت گرفت تا بتوان بدون دخالت انساني و با همان ابزارهاي در دسترسِ پردازش زبان طبيعي،مجموعهي بزرگي از روابط معنايي را از حجم عظيم اطلاعات موجود در وب به دست آورد. يكي از رويكردهاي بزرگ براي دستيابي به اين هدف استخراج آزاد اطلاعات است. در حقيقت استخراج آزاد اطلاعاتتوانايي استخراج دانش از حجم وسيعي از اطلاعات وب است؛ و يا از نگاهي ديگر، عمليات استخراج رابطهها، ازپيكرههاي متني انبوه، بدون نياز به دانش خارجي و يا نظارت انساني؛ بنابراين مهمترينويژگي استخراج آزاد اطلاعات وابسته نبودن آن به دامنهي خاصي از روابط و استخراجِ اطلاعاتِ بامعني بدون نظارت انسانياست. اين ويژگي باعث ميشود تا سامانههاي استخراج آزاد اطلاعات، عموما مستقل از رابطه و دامنه موضوعي، اما وابسته به ساختار زبان باشند.
پژوهش پيش رو تلاشي در راستاي توسعهي رويكرد استخراج آزاد اطلاعات در زبان فارسي است.در اين پژوهش به معرفي و بررسي اين رويكرد پرداخته شده چالشهاي آن معرفي و مرتفع ميشود. ملزومات و ابزارهاي مقدماتي براي استخراج آزاد اطلاعات توسعه داده شده و در نهايت روشهايي براي استخراج آزاد اطلاعات در زبان فارسي ارائه ميشود.
اين پژوهش دو رويكرد مبتني بر قاعده و مبتني بر يادگيري را براي استخراج آزاد اطلاعات ارائه نموده و با استفاده از مجموعه داده ارزيابي دستساز، اين دو رويكرد را ارزيابي و مقايسه كرده است.
واژههاي كليدي:پردازش زبان طبيعي، يادگيري ماشين، استخراج اطلاعات، استخراج آزاد اطلاعات، زبان فارسي