-
شماره ركورد
25773
-
پديد آورنده
نيما گنجي
-
عنوان
ساخت نيمهخودكار پيكره استخراج رابطه در زبان فارسي و ارزيابي روشهاي مستقل از زبان موجود در مرزهاي دانش برروي آن
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
مهندسي كامپيوتر - هوش مصنوعي
-
سال تحصيل
1396-1397
-
تاريخ دفاع
1399/11/30
-
استاد راهنما
دكتر بهروز مينايي بيدگلي
-
دانشكده
مهندسي كامپيوتر
-
چكيده
استخراج رابطه از وظايف اصلي استخراج اطلاعات نيز به شمار ميرود كه هدف آن شناسايي و طبقهبندي روابط معنايي بين جفت موجوديتها در متن است. پيكره دادههاي موجود در زمينهي استخراج رابطه را ميتوان در سه دسته گنجاند، يكي پيكرههاي مورد استفاده در استخراج سنتي كه به صورت دستي حاشيهنويسي شدهاند و داراي انواع روابط محدودي هستند، دستهي ديگر پيكرههاي مورد استفاده در استخراج روابط آزاد هستند كه در آنها روابط و موجوديتها به صورت دستي حاشيهنويسي شدهاند با اين تفاوت كه انواع رابطه در آنها به محدوديت ندارد، دستهي آخر پيكرههايي هستند كه در روشهاي باناظر از راه دور مورد استفاده قرار ميگيرند و با استفاده از روشهاي ناظر از راه دور توليد شدهاند و داراي انواع رابطهي از پيش تعيين شده هستند. ساخت پيكرههاي دانش براي استخراج رابطه با حاشيهنويسي دستي به زمان و نيروي انساني زيادي نياز دارد و در نهايت نيز حجم پيكرهي ساخته شده بسيار محدود بوده و همهي انواع روابط را شامل نميشود، در مقابل نيز پيكرههايي كه به صورت كاملا خودكار و بدون دخالت خبره توليد ميشوند داراي حجم مناسب اما از كيفيت قابل قبولي برخوردار نيستند. براي دست يافتن به مزاياي هر دو روش ميتوان پيكرهها را به صورت نيمه خودكار استخراج كرد. به علاوه در زبان فارسي و در بخش استخراج رابطه پيكرههاي محدودي وجود دارند و پيكرههاي موجود نيز از نظر تعداد جملات، دقت و انواع رابطههاي پوشش داده شده به اندازهي كافي غني نيستند و اين باعث شده تا عمليات استخراج رابطه در زبان فارسي از كيفيت مناسبي برخوردار نباشد.
هدف از انجام اين پژوهش ارائهي روشي براي توليد نيمهخودكار و ارزيابي پيكرهي استخراج رابطه در زبان فارسي است. در اين پژوهش روشي براي توليد پيكرههاي طلايي با دقت بالا و به روش نيمه خودكار به كمك پايگاههاي دانش موجود در زبان فارسي ارائه ميگردد كه در آن بدون دخالت عامل انساني بتوان پيكرههاي با حجم زياد، دقت بالا و انواع رابطههاي تحت پوشش توليد كرد. با استفاده از روش پيشنهادي پيكرهاي با بيش از 120000 جملهي با 109 نوع رابطه توليد كردهايم. اميد است كه نتايج به دست آمده از اين تحقيق بتواند براي محققين و كساني كه در زمينهي استخراج روابط در زبان فارسي قدم برميدارند مفيد باشد.
-
تاريخ ورود اطلاعات
1400/10/08
-
عنوان به انگليسي
Constructing a semi-automated corpus for relation extraction in the Farsi language and evaluating it using state-of-the-art language-independent methods
-
تاريخ بهره برداري
2/19/2022 12:00:00 AM
-
دانشجوي وارد كننده اطلاعات
نيما گنجي
-
كليدواژه هاي فارسي
استخراج رابطه , استخراج پيكره داده , ساخت پيكره داده , پيكره داده فارسي , توليد نيمهخودكار پيكره , ارزيابي پيكره
-
كليدواژه هاي لاتين
Relation Extraction , Dataset Extraction , Dataset Construction , Persian Dataset , Semi-automated Dataset Creation , Dataset Evaluation
-
لينک به اين مدرک :