شماره ركورد
17887
شماره راهنما(اين فيلد مربوط به كارشناس ميباشد لطفا آن را خالي بگذاريد)
17887
پديد آورنده
محسن رحيمي بافقي
عنوان
سامانهي ابهامزدايي از اطلاعات استخراجشده در زبان فارسي
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
نرم افزار
تاريخ دفاع
خردادماه 1396
استاد راهنما
دكتر بهروز مينايي بيدگلي
دانشكده
كامپيوتر
چكيده
اينترنت حجم عظيمي از اطلاعات با ساختارهاي گوناگون را در خود جاي داده است. مدتهاست كه دانشمندان روي سامانههاي استخراج اطلاعات از متون ساختارنيافته كار ميكنند؛ سامانههايي كه بهصورت انعطافپذير و قابلاطمينان، صفحات وب را به ساختارهاي مناسبي براي سامانههاي نرمافزاري تبديل كنند. يكي از رويكردهاي بزرگ براي دستيابي به اين هدف استخراج آزاد اطلاعات است. سامانههاي استخراج اطلاعات اغلب اطلاعات را بهصورت يك رابطه به همراه مجموعه آرگومانهايش استخراج مينمايند. با اجراي اين فرآيند در دامنه وسيعي از دادهها مثل وب، ميتوان صدها مجموعه بهصورت مذكور بهدست آورد كه شامل ميليونها رابطهي متفاوت به همراه آرگومانهايش باشد.
عليرغم پيشرفتهاي عظيمي در استخراج اطلاعات، همچنان مسائلي در حوزههاي كيفيت، قابليت اطمينان و ... وجود دارند كه سامانهها و روشهاي استخراج اطلاعات را در عمل دچار چالش نمودهاند.
مسئلهي مهم اين است كه رابطههايي كه از لحاظ معنايي يكسان هستند با نامهاي متفاوتي استخراج ميشوند؛ درواقع هر مفهوم ممكن است در قالب مجموعهاي از كلمات متفاوت در متن بيان شده باشد. ما چالش وجود نامهاي هممعني در اطلاعات استخراجشده را «ابهام» در اطلاعات استخراجشده ميناميم و مسئلهي تشخيص نامهاي هممعني در موجوديتها را بهعنوان «ابهامزدايي از اطلاعات استخراجشده» مطرح ميكنيم.
پژوهش پيشرو تلاشي در راستاي توسعهي سامانهاي براي ابهامزدايي از اطلاعات استخراجشده در زبان فارسي است. در اين پژوهش به بررسي چالشهاي موجود در پيشروي اين سامانه و همچنين چالشهاي ابهامزدايي از مضمون واژهها در زبان فارسي ميپردازيم. پسازآن سعي در ايجاد سامانهاي شده است كه بتواند از آرگومانهاي اطلاعات استخراجشده در زبان فارسي ابهامزدايي نموده و همزمان با استفاده از روشهايي اين اطلاعات را به موجوديتها و مفاهيم پايگاهدانش بيبلنت كه يك دانشنامهي چندزبانهي است متصل نموده و به اين شكل اطلاعات را از صورت واژهاي خود فراتر برده و آن را به سطح معنايي نزديكتر كند. در پايان سامانهاي براي نمايش نتايج و همچنين انجام پرسوجوهاي مختلف بر روي اطلاعات طراحي گرديده كه نتايج آن قابل مشاهده است.
تاريخ ورود اطلاعات
1396/07/16
تاريخ بهره برداري
1/1/1900 12:00:00 AM
دانشجوي وارد كننده اطلاعات
محسن رحيمي بافقي
چكيده به لاتين
World Wide Web contains a huge amount of information with different structures. Computer Scientists have been working on systems that extract information from unstructured text; Flexible and reliable systems which convert web pages to machine-readable structures. One of the major approaches to achieve this goal is "Open Information Extraction". Information extraction systems often extract information as a relation with its arguments set. By executing this process on a wide range of data, such as the Web, hundreds of collections can be obtained which contains millions of different relations with their arguments.
Despite the advances in information extraction, there are still issues in the areas of quality, reliability, etc. that have challenged the systems and methods of information extraction in practice.
One of the major issues is that relations that are semantically the same are extracted from different names. In fact, any concept may be expressed in the form of a set of different words in the text. We call the challenge of the existence of synonymous names in the extracted information as "ambiguity" and proposed the issue of identifying synonymous names in the entities as "Disambiguation of extracted information".
This thesis is an effort on developing a system for disambiguation of extracted information in the Persian language. In this research, we examine the challenges ahead of this system as well as the challenges of word sense disambiguation in Persian. Then we attempt to create a system that can disambiguate the arguments extracted from the Persian language and simultaneously use some methods to connect that information to BabelNet knowledge base entities and concepts, which is a multilingual encyclopedic dictionary. At the end, the system is designed to display the results, as well as to perform different queries on the information, in which results are visible.