زهرا سارابي

عنوان

استنتاج گرامر به روش تجزيه داده گرا در زبان فارسي

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

كامپيوتر - هوش مصنوعي

سال تحصيل

آبان ماه 1391

تاريخ دفاع

آبان ماه 1391

استاد راهنما

دكتر مرتضي آنالويي

چكيده

چكيده هدف از اين پايان نامه به طور خاص تمركز بر روي مسئله گرامر و تجزيه آماري جملات در زبان فارسي است. يعني براي زبان فارسي بتوان گرامر مناسب آن را استخراج كرده و بر اساس اين گرامر، براي يك جمله داده شده بتوان محتمل‌ترين درخت تجزيه آن جمله را محاسبه كرد. در اين تحقيق، ما به بررسي روش‌هاي مختلف يادگيري با مربي ساختارهاي دستوري زبان طبيعي به صورت نمايش ساختار-عبارت و بر اساس چارچوب تجزيه داده¬گرا (DOP) مي‌پردازيم. روش‌هايي كه در اين تحقيق براي ساخت تجزيه‌گر نحوي بكار برده شده، از مجموعه مدل‌هاي چارچوب تجزيه داده گرا بوده و عبارتند از: DOPh، DOP-Goodman و مدل Double-DOP . همچنين به منظور سنجش ميزان افزايش كارايي هر روش از منظر زمان و دقت، ساخت يك تجزيه گر نحوي PCFG، به عنوان يك خط مبنا براي ساير مدل‌ها در نظر گرفته شد. تمركز اصلي اين تحقيق از ميان ساير مدل‌هاي تجزيه داده¬گرا بر روي مدل Double-DOP است كه جديدترين و كاراترين مدل از مجموعه مدل‌هاي DOP مي‌باشد. ما اين مدل را براي زبان فارسي به طور كامل پياده سازي كرده و تغييرات لازم متناسب با اين زبان را براي آن اعمال نموديم. اين تغييرات يكي در نحوه دودويي كردن درختان تجزيه است كه به اين منظور چهار روش مطرح از روش‌هاي جديد دودويي كردن بانك‌هاي درختي را پياده سازي كرده و ضمن مقايسه نتايج آن¬ها، اثر دودويي راست و چپ را نيز بررسي نموديم. همچنين براي مسأله كلمات ناشناخته در زبان فارسي، كه يكي از اجزاي تجزيه‌گرهاي نحوي است كه تا كنون كمتر به آن پرداخته شده، سه سطح مختلف استخراج ويژگي¬هاي لغوي كلمات زبان فارسي را استخراج كرده و در تجزيه گر نحوي خود به كار خواهيم گرفت. سومين تغيير نيز در نحوه استخراج قطعات درختي جملات است كه در آن به جاي استخراج بزرگ‌ترين زير درخت مشترك، تمام زير درختان مشترك را استخراج مي¬نماييم. در اين تحقيق ضمن معرفي دو بانك درختي ساختار-عبارت جديد براي زبان فارسي، تمام تجزيه¬گرهاي نحوي ذكر شده به طور جداگانه بر روي اين بانك¬هاي درختي آزمايش شدند. نتايج آزمايش‌ها كه با استفاده از ابزار EVALB و نيز ابزار EVALC گزارش شده، نشان داد كه اعمال سه تغيير فوق در تجزيه گر Double-DOP، افزايش دقت قابل توجهي را در دو مورد اول و كاهش دقت در مورد سوم را به همراه خواهد داشت. واژه‌هاي كليدي: تجزيه داده¬گرا – بانك درختي – زبان فارسي– Double-DOP

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=10968&Field=0&DTC=6