نيما گنجي

عنوان

ساخت نيمه‌خودكار پيكره استخراج رابطه در زبان فارسي و ارزيابي روش‌هاي مستقل از زبان موجود در مرزهاي دانش برروي آن

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

مهندسي كامپيوتر - هوش مصنوعي

سال تحصيل

1396-1397

تاريخ دفاع

1399/11/30

استاد راهنما

دكتر بهروز مينايي بيدگلي

دانشكده

مهندسي كامپيوتر

چكيده

استخراج رابطه از وظايف اصلي استخراج اطلاعات نيز به شمار مي‌رود كه هدف آن شناسايي و طبقه‌بندي روابط معنايي بين جفت موجوديت‌ها در متن است. پيكره داده‌هاي موجود در زمينه‌ي استخراج رابطه را مي‌توان در سه دسته گنجاند، يكي پيكره‌هاي مورد استفاده در استخراج سنتي كه به صورت دستي حاشيه‌نويسي شده‌اند و داراي انواع روابط محدودي هستند، دسته‌ي ديگر پيكره‌هاي مورد استفاده در استخراج روابط آزاد هستند كه در آن‌ها روابط و موجوديت‌ها به صورت دستي حاشيه‌نويسي شده‌اند با اين تفاوت كه انواع رابطه در آن‌ها به محدوديت ندارد، دسته‌ي آخر پيكره‌هايي هستند كه در روش‌هاي باناظر از راه دور مورد استفاده قرار مي‌گيرند و با استفاده از روش‌هاي ناظر از راه دور توليد شده‌اند و داراي انواع رابطه‌ي از پيش تعيين شده‌ هستند. ساخت پيكره‌هاي دانش براي استخراج رابطه با حاشيه‌نويسي دستي به زمان و نيروي انساني زيادي نياز دارد و در نهايت نيز حجم پيكره‌ي ساخته شده بسيار محدود بوده و همه‌ي انواع روابط را شامل نمي‌شود، در مقابل نيز پيكره‌هايي كه به صورت كاملا خودكار و بدون دخالت خبره توليد مي‌شوند داراي حجم مناسب اما از كيفيت قابل قبولي برخوردار نيستند. براي دست يافتن به مزاياي هر دو روش مي‌توان پيكره‌ها را به صورت نيمه خودكار استخراج كرد. به علاوه در زبان فارسي و در بخش استخراج رابطه پيكره‌هاي محدودي وجود دارند و پيكره‌هاي موجود نيز از نظر تعداد جملات، دقت و انواع رابطه‌هاي پوشش داده شده به اندازه‌ي كافي غني نيستند و اين باعث شده تا عمليات استخراج رابطه در زبان فارسي از كيفيت مناسبي برخوردار نباشد. هدف از انجام اين پژوهش ارائه‌ي روشي براي توليد نيمه‌خودكار و ارزيابي پيكره‌ي استخراج رابطه در زبان فارسي است. در اين پژوهش روشي براي توليد پيكره‌هاي طلايي با دقت بالا و به روش نيمه خودكار به كمك پايگاه‌هاي دانش موجود در زبان فارسي ارائه مي‌گردد كه در آن بدون دخالت عامل انساني بتوان پيكره‌هاي با حجم زياد، دقت بالا و انواع رابطه‌هاي تحت پوشش توليد كرد. با استفاده از روش پيشنهادي پيكره‌اي با بيش از 120000 جمله‌ي با 109 نوع رابطه توليد كرده‌ايم. اميد است كه نتايج به دست آمده از اين تحقيق بتواند براي محققين و كساني كه در زمينه‌ي استخراج روابط در زبان فارسي قدم برمي‌دارند مفيد باشد.

تاريخ ورود اطلاعات

1400/10/08

عنوان به انگليسي

Constructing a semi-automated corpus for relation extraction in the Farsi language and evaluating it using state-of-the-art language-independent methods

تاريخ بهره برداري

2/19/2022 12:00:00 AM

دانشجوي وارد كننده اطلاعات

نيما گنجي

Name: نيما گنجي
Author: نيما گنجي

كليدواژه هاي فارسي

استخراج رابطه , استخراج پيكره داده , ساخت پيكره داده , پيكره داده فارسي , توليد نيمه‌خودكار پيكره , ارزيابي پيكره

كليدواژه هاي لاتين

Relation Extraction , Dataset Extraction , Dataset Construction , Persian Dataset , Semi-automated Dataset Creation , Dataset Evaluation

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=25773&Field=0&DTC=6