-
شماره ركورد
10968
-
شماره راهنما(اين فيلد مربوط به كارشناس ميباشد لطفا آن را خالي بگذاريد)
10968
-
پديد آورنده
زهرا سارابي
-
عنوان
استنتاج گرامر به روش تجزيه داده گرا در زبان فارسي
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
كامپيوتر - هوش مصنوعي
-
سال تحصيل
آبان ماه 1391
-
تاريخ دفاع
آبان ماه 1391
-
استاد راهنما
دكتر مرتضي آنالويي
-
چكيده
چكيده
هدف از اين پايان نامه به طور خاص تمركز بر روي مسئله گرامر و تجزيه آماري جملات در زبان فارسي است. يعني براي زبان فارسي بتوان گرامر مناسب آن را استخراج كرده و بر اساس اين گرامر، براي يك جمله داده شده بتوان محتملترين درخت تجزيه آن جمله را محاسبه كرد. در اين تحقيق، ما به بررسي روشهاي مختلف يادگيري با مربي ساختارهاي دستوري زبان طبيعي به صورت نمايش ساختار-عبارت و بر اساس چارچوب تجزيه داده¬گرا (DOP) ميپردازيم. روشهايي كه در اين تحقيق براي ساخت تجزيهگر نحوي بكار برده شده، از مجموعه مدلهاي چارچوب تجزيه داده گرا بوده و عبارتند از: DOPh، DOP-Goodman و مدل Double-DOP . همچنين به منظور سنجش ميزان افزايش كارايي هر روش از منظر زمان و دقت، ساخت يك تجزيه گر نحوي PCFG، به عنوان يك خط مبنا براي ساير مدلها در نظر گرفته شد.
تمركز اصلي اين تحقيق از ميان ساير مدلهاي تجزيه داده¬گرا بر روي مدل Double-DOP است كه جديدترين و كاراترين مدل از مجموعه مدلهاي DOP ميباشد. ما اين مدل را براي زبان فارسي به طور كامل پياده سازي كرده و تغييرات لازم متناسب با اين زبان را براي آن اعمال نموديم. اين تغييرات يكي در نحوه دودويي كردن درختان تجزيه است كه به اين منظور چهار روش مطرح از روشهاي جديد دودويي كردن بانكهاي درختي را پياده سازي كرده و ضمن مقايسه نتايج آن¬ها، اثر دودويي راست و چپ را نيز بررسي نموديم. همچنين براي مسأله كلمات ناشناخته در زبان فارسي، كه يكي از اجزاي تجزيهگرهاي نحوي است كه تا كنون كمتر به آن پرداخته شده، سه سطح مختلف استخراج ويژگي¬هاي لغوي كلمات زبان فارسي را استخراج كرده و در تجزيه گر نحوي خود به كار خواهيم گرفت. سومين تغيير نيز در نحوه استخراج قطعات درختي جملات است كه در آن به جاي استخراج بزرگترين زير درخت مشترك، تمام زير درختان مشترك را استخراج مي¬نماييم. در اين تحقيق ضمن معرفي دو بانك درختي ساختار-عبارت جديد براي زبان فارسي، تمام تجزيه¬گرهاي نحوي ذكر شده به طور جداگانه بر روي اين بانك¬هاي درختي آزمايش شدند. نتايج آزمايشها كه با استفاده از ابزار EVALB و نيز ابزار EVALC گزارش شده، نشان داد كه اعمال سه تغيير فوق در تجزيه گر Double-DOP، افزايش دقت قابل توجهي را در دو مورد اول و كاهش دقت در مورد سوم را به همراه خواهد داشت.
واژههاي كليدي: تجزيه داده¬گرا – بانك درختي – زبان فارسي– Double-DOP
-
لينک به اين مدرک :