شماره ركورد
9987
شماره راهنما(اين فيلد مربوط به كارشناس ميباشد لطفا آن را خالي بگذاريد)
9987
پديد آورنده
حميدرضا قادر
عنوان
يك مدل شناختي بيزي براي استخراج گرامر از متون زبان طبيعي
مقطع تحصيلي
درجه كارشناسي ارشد
رشته تحصيلي
مهندسي كامپيوتر گرايش هوش مصنوعي
سال تحصيل
اسفند 1390
تاريخ دفاع
اسفند 1390
استاد راهنما
دكتر مرتضي آنالويي
چكيده
چكيده
مسئله¬اي كه در اين پايان¬نامه مورد بررسي قرار مي¬گيرد، مسئله¬ي استخراج خودكار گرامر محاسباتي از متون زبان طبيعي است. براي اينكه كامپيوتر بتواند جملات زبان طبيعي را تجزيه¬ي نحوي كند، نيازمند وجود يك گرامر محاسباتي است تا براساس آن بتواند ساختار نحوي درست جمله را تشخيص دهد. ايجاد چنين گرامري بصورت دستي كاري پرهزينه و طاقت¬فرسا است. بنابراين مسئله¬ي استخراج خودكار چنين گرامري از متون موجود براي يك زبان مطرح شده است. در اين تحقيق، گرامر استخراجي از نوع گرامرهاي جايگزيني درخت در نظر گرفته شده است.
در اين تحقيق نشان مي¬دهيم كه مسئله استخراج گرامر براي گرامرهاي جايگزيني درخت، مي¬تواند به عنوان تركيبي پيچيده از تعداد زيادي مسئله انتخاب مدل تعريف شود. مسئله انتخاب مدل به مسائلي گفته مي¬شود كه در آن¬ها، ميان مدل¬هايي با پيچيدگي متفاوت تصميم¬گيري مي¬شود. ما براي ارائه مدل خود، ابتدا يك مدل بيزي از فرايند شناختي انتخاب مدل را معرفي مي¬كنيم. اين مدل مسئله انتخاب مدل را با تطابق بيشتر با رفتار انسان حل مي¬كند. سپس نشان مي¬دهيم شكل تعميم يافته¬ي اين مدل كه منجر به فرايند دريكله و فرايند رستوران چيني مي¬شود، مي¬تواند براي حل مسئله استخراج گرامر بكارگرفته شود. ما اين فرايند¬ها را با مفاهيم گرامر¬هاي مبتني بر سابقه تركيب كرده و مدل استخراج گرامر خود را ارائه مي¬كنيم.
استخراج گرامر در مدل ارائه شده بدين¬ترتيب اتفاق مي¬افتد كه ابتدا توزيع احتمال هدف به شرط داده¬هاي مشاهده شده ايجاد مي¬شود. اين توزيع احتمال، در مدل ارائه شده، توزيع احتمال توأم تعداد زيادي متغير تصادفي خواهد بود. چنين توزيع احتمالي به دليل پيچيدگي زياد، به روش¬هاي تحليلي قابل محاسبه نيست. بنابراين براي تخمين اين توزيع احتمال و يافتن پاسخ مناسب براي مسئله از يكي از روش¬هاي تخمين توزيع¬هاي احتمال، كه تحت عنوان مونت كارلوي زنجيره¬ي ماركوف شناخته مي¬شوند، استفاده مي¬كنيم.
در ادامه پس از فرموله كردن مدل مورد نظر با استفاده از فرايند¬هاي دريكله و رستوران چيني، اين مدل را ايجاد كرده و روي داده¬هاي استاندارد پايگاه درخت Penn مورد آزمايش قرار مي¬دهيم. نتايج آزمايش¬هاي انجام شده بوسيله EVALB كه ابزار استاندارد ارزيابي درخت¬هاي تجزيه است، ارزيابي شده است و در مقايسه با يك مدل مشابه و يك مدل مبتني بر درست¬نمايي بيشينه، در معيار F1 پيشرفت نشان مي¬دهد. تحليل نتايج نشان مي¬دهد كه اين پيشرفت نتيجه ساده¬تر شدن مسائل انتخاب مدل موجود در مسئله استخراج گرامر، در اثر روش¬هاي مبتني بر سابقه است.
واژههاي كليدي: مدل بيزي از فرايند شناختي انتخاب مدل، گرامر جايگزيني درخت، فرايند دريكله، فرايند رستوران چيني، گرامر¬هاي مبتني بر سابقه.