علي افتخاريان

عنوان

توسعه سيستم تشخيص هم ارجاع براي بهبود نتايج استخراج آزاد اطلاعات

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

هوش مصنوعي

تاريخ دفاع

خرداد 1396

استاد راهنما

دكتر بهروز مينايي بيدگلي

دانشكده

كامپيوتر

چكيده

فرآيند تعيين عبارت‌هاي اسمي هم‌ارجاع، يكي از بخش‌هاي كليدي در تحليل گفتمان و ساير كاربردهاي پردازش زبان‌هاي طبيعي مانند استخراج اطلاعات، ترجمه ماشيني و خلاصهسازي متون مي‌باشد به‌طوري‌كه كارايي بسياري از اين كاربردها وابستگي مستقيمي به صحت خروجي‌هاي توليدشده توسط فرآيند تعيين عبارت‌هاي اسمي هم‌ارجاع دارد. يكي از مهم‌ترين زير بخش‌هاي اين سامانه‌ها، فرآيند تشخيص مرجع ضمير مي‌باشد كه در آن تنها تعيين مرجع ضماير مورد توجه قرارگرفته است. روش‌هاي تعيين مرجع ضماير را مي‌توان به‌طوركلي به دو دسته روش‌هاي زبان‌شناسي و يادگيري ماشين تقسيم‌بندي نمود. روش‌هاي زبان‌شناسي به اطلاعات زبان‌شناسي بسياري نياز دارند كه به دست آوردن اين اطلاعات فرآيندي پرخطا و زمان‌بر است، در طرف ديگر روش‌هاي يادگيري ماشين قرار دارند كه به اطلاعات زبان‌شناسي كمتري نياز داشته و با استفاده از پيكره‌هاي آموزشي نتايج نسبتا بهتري حاصل توليد كرده‌اند. در اين پژوهش، با استفاده از پيكره‌ي PCAC-2008 سامانه‌اي جهت به‌كارگيري تكنيك‌هاي يادگيري ماشين در فرآيند تعيين مرجع ضماير منفصل فارسي ارائه‌شده و در آن از يك معماري جديد براي استخراج نمونه‌هاي آموزشي استفاده‌شده است. در ادامه با استفاده از درخت وابستگي ويژگي‌هاي معنايي جديدي به سيستم اضافه‌شده و تأثير آن‌ها بر روي كارايي سيستم تشخيص مرجع ضمير بررسي شده‌اند. نتايج بدست آمده در اين پژوهش نشان داده است كه سيستم پيشنهادي توانسته معيار F را براي فرآيند تشخيص مرجع ضمير در زبان فارسي، حدود 11.2 درصد بهبود دهد.

تاريخ ورود اطلاعات

1396/07/11

تاريخ بهره برداري

1/1/1900 12:00:00 AM

دانشجوي وارد كننده اطلاعات

علي افتخاريان

Name: علي افتخاريان
Author: علي افتخاريان

چكيده به لاتين

Co-reference resolution is a key task in discourse analysis and in many natural language processing applications such as question answering, summarization, machine translation, information extraction, given that the performance of many other tasks depends on the correct output of this type of system. Pronoun resolution is a major and challenging subpart of co-reference resolution, in which only the resolution of pronouns is considered. The existing co-reference resolution approaches can be classified into two broad categories: linguistic and machine learning approaches. Linguistic approaches need a lot of linguistic information for the resolution process. Acquisition of such information is an error-prone and time-consuming process. In contrast, learning approaches need less linguistic information and provide the state of the art results. In this thesis, using the PCAC-2008 corpus, we present a framework for the use of machine learning methods for Persian pronoun resolution. In this framework we introduce a new architecture for extracting training instance. Then, by using dependency parser, we add some new features for co-reference system and investigate the effect of these features to improve system efficiency. The results show that proposed system improve the F-measure of Persian pronoun resolution system by 11.2 percent.

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=17860&Field=0&DTC=6