محسن رحيمي بافقي

عنوان

سامانه‌ي ابهام‌زدايي از اطلاعات استخراج‌شده در زبان فارسي

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

نرم افزار

تاريخ دفاع

خردادماه 1396

استاد راهنما

دكتر بهروز مينايي بيدگلي

دانشكده

كامپيوتر

چكيده

اينترنت حجم عظيمي از اطلاعات با ساختارهاي گوناگون را در خود جاي داده است. مدت‌هاست كه دانشمندان روي سامانه‌هاي استخراج اطلاعات از متون ساختارنيافته كار مي‌كنند؛ سامانه‌هايي كه به‌صورت انعطاف‌پذير و قابل‌اطمينان، صفحات وب را به ساختارهاي مناسبي براي سامانه‌هاي نرم‌افزاري تبديل كنند. يكي از رويكردهاي بزرگ براي دستيابي به اين هدف استخراج آزاد اطلاعات است. سامانه‌هاي استخراج اطلاعات اغلب اطلاعات را به‌صورت يك رابطه به همراه مجموعه آرگومان‌هايش استخراج مي‌نمايند. با اجراي اين فرآيند در دامنه وسيعي از داده‌ها مثل وب، مي‌توان صدها مجموعه به‌صورت مذكور به‌دست آورد كه شامل ميليون‌ها رابطه‌ي متفاوت به همراه آرگومان‌هايش باشد. عليرغم پيشرفت‌هاي عظيمي در استخراج اطلاعات، همچنان مسائلي در حوزه‌هاي كيفيت، قابليت اطمينان و ... وجود دارند كه سامانه‌ها و روش‌هاي استخراج اطلاعات را در عمل دچار چالش نموده‌اند. مسئله‌ي مهم اين است كه رابطه‌هايي كه از لحاظ معنايي يكسان هستند با نام‌هاي متفاوتي استخراج مي‌شوند؛ درواقع هر مفهوم ممكن است در قالب مجموعه‌اي از كلمات متفاوت در متن بيان شده باشد. ما چالش وجود نام‌هاي هم‌معني در اطلاعات استخراج‌شده را «ابهام» در اطلاعات استخراج‌شده مي‌ناميم و مسئله‌ي تشخيص نام‌هاي هم‌معني در موجوديت‌ها را به‌عنوان «ابهام‌زدايي از اطلاعات استخراج‌شده» مطرح مي‌كنيم. پژوهش پيش‌رو تلاشي در راستاي توسعه‌ي سامانه‌اي براي ابهام‌زدايي از اطلاعات استخراج‌شده در زبان فارسي است. در اين پژوهش به بررسي چالش‌هاي موجود در پيش‌روي اين سامانه و همچنين چالش‌هاي ابهام‌زدايي از مضمون واژه‌ها در زبان فارسي مي‌پردازيم. پس‌ازآن سعي در ايجاد سامانه‌اي شده است كه بتواند از آرگومان‌هاي اطلاعات استخراج‌شده در زبان فارسي ابهام‌زدايي نموده و هم‌زمان با استفاده از روش‌هايي اين اطلاعات را به موجوديت‌ها و مفاهيم پايگاه‌دانش بيبل‌نت كه يك دانشنامه‌ي چندزبانه‌ي است متصل نموده و به اين شكل اطلاعات را از صورت واژه‌اي خود فراتر برده و آن را به سطح معنايي نزديك‌تر كند. در پايان سامانه‌اي براي نمايش نتايج و همچنين انجام پرس‌وجوهاي مختلف بر روي اطلاعات طراحي گرديده كه نتايج آن قابل مشاهده است.

تاريخ ورود اطلاعات

1396/07/16

تاريخ بهره برداري

1/1/1900 12:00:00 AM

دانشجوي وارد كننده اطلاعات

محسن رحيمي بافقي

Name: محسن رحيمي بافقي
Author: محسن رحيمي بافقي

چكيده به لاتين

World Wide Web contains a huge amount of information with different structures. Computer Scientists have been working on systems that extract information from unstructured text; Flexible and reliable systems which convert web pages to machine-readable structures. One of the major approaches to achieve this goal is "Open Information Extraction". Information extraction systems often extract information as a relation with its arguments set. By executing this process on a wide range of data, such as the Web, hundreds of collections can be obtained which contains millions of different relations with their arguments. Despite the advances in information extraction, there are still issues in the areas of quality, reliability, etc. that have challenged the systems and methods of information extraction in practice. One of the major issues is that relations that are semantically the same are extracted from different names. In fact, any concept may be expressed in the form of a set of different words in the text. We call the challenge of the existence of synonymous names in the extracted information as "ambiguity" and proposed the issue of identifying synonymous names in the entities as "Disambiguation of extracted information". This thesis is an effort on developing a system for disambiguation of extracted information in the Persian language. In this research, we examine the challenges ahead of this system as well as the challenges of word sense disambiguation in Persian. Then we attempt to create a system that can disambiguate the arguments extracted from the Persian language and simultaneously use some methods to connect that information to BabelNet knowledge base entities and concepts, which is a multilingual encyclopedic dictionary. At the end, the system is designed to display the results, as well as to perform different queries on the information, in which results are visible.

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=17887&Field=0&DTC=6