شماره ركورد
17860
شماره راهنما(اين فيلد مربوط به كارشناس ميباشد لطفا آن را خالي بگذاريد)
17860
پديد آورنده
علي افتخاريان
عنوان
توسعه سيستم تشخيص هم ارجاع براي بهبود نتايج استخراج آزاد اطلاعات
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
هوش مصنوعي
تاريخ دفاع
خرداد 1396
استاد راهنما
دكتر بهروز مينايي بيدگلي
دانشكده
كامپيوتر
چكيده
فرآيند تعيين عبارتهاي اسمي همارجاع، يكي از بخشهاي كليدي در تحليل گفتمان و ساير كاربردهاي پردازش زبانهاي طبيعي مانند استخراج اطلاعات، ترجمه ماشيني و خلاصهسازي متون ميباشد بهطوريكه كارايي بسياري از اين كاربردها وابستگي مستقيمي به صحت خروجيهاي توليدشده توسط فرآيند تعيين عبارتهاي اسمي همارجاع دارد. يكي از مهمترين زير بخشهاي اين سامانهها، فرآيند تشخيص مرجع ضمير ميباشد كه در آن تنها تعيين مرجع ضماير مورد توجه قرارگرفته است. روشهاي تعيين مرجع ضماير را ميتوان بهطوركلي به دو دسته روشهاي زبانشناسي و يادگيري ماشين تقسيمبندي نمود. روشهاي زبانشناسي به اطلاعات زبانشناسي بسياري نياز دارند كه به دست آوردن اين اطلاعات فرآيندي پرخطا و زمانبر است، در طرف ديگر روشهاي يادگيري ماشين قرار دارند كه به اطلاعات زبانشناسي كمتري نياز داشته و با استفاده از پيكرههاي آموزشي نتايج نسبتا بهتري حاصل توليد كردهاند. در اين پژوهش، با استفاده از پيكرهي PCAC-2008 سامانهاي جهت بهكارگيري تكنيكهاي يادگيري ماشين در فرآيند تعيين مرجع ضماير منفصل فارسي ارائهشده و در آن از يك معماري جديد براي استخراج نمونههاي آموزشي استفادهشده است. در ادامه با استفاده از درخت وابستگي ويژگيهاي معنايي جديدي به سيستم اضافهشده و تأثير آنها بر روي كارايي سيستم تشخيص مرجع ضمير بررسي شدهاند. نتايج بدست آمده در اين پژوهش نشان داده است كه سيستم پيشنهادي توانسته معيار F را براي فرآيند تشخيص مرجع ضمير در زبان فارسي، حدود 11.2 درصد بهبود دهد.
تاريخ ورود اطلاعات
1396/07/11
تاريخ بهره برداري
1/1/1900 12:00:00 AM
دانشجوي وارد كننده اطلاعات
علي افتخاريان
چكيده به لاتين
Co-reference resolution is a key task in discourse analysis and in many natural language processing applications such as question answering, summarization, machine translation, information extraction, given that the performance of many other tasks depends on the correct output of this type of system. Pronoun resolution is a major and challenging subpart of co-reference resolution, in which only the resolution of pronouns is considered. The existing co-reference resolution approaches can be classified into two broad categories: linguistic and machine learning approaches. Linguistic approaches need a lot of linguistic information for the resolution process. Acquisition of such information is an error-prone and time-consuming process. In contrast, learning approaches need less linguistic information and provide the state of the art results. In this thesis, using the PCAC-2008 corpus, we present a framework for the use of machine learning methods for Persian pronoun resolution. In this framework we introduce a new architecture for extracting training instance. Then, by using dependency parser, we add some new features for co-reference system and investigate the effect of these features to improve system efficiency. The results show that proposed system improve the F-measure of Persian pronoun resolution system by 11.2 percent.