-
شماره ركورد
10574
-
شماره راهنما(اين فيلد مربوط به كارشناس ميباشد لطفا آن را خالي بگذاريد)
10574
-
پديد آورنده
علي حاتمي
-
عنوان
بكارگيري مدل هاي آماري زبان به منظور بهبود بازشناسي گفتار فارسي پيوسته به كمك روش هاي مولد
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
كامپيوتر - هوش مصنوعي
-
سال تحصيل
آبان ماه 1391
-
تاريخ دفاع
آبان ماه 1391
-
استاد راهنما
دكتر احمد اكبري
-
استاد مشاور
دكتر بابك ناصر شريف
-
چكيده
مدل زباني، نقش مهمي در بسياري از حوزه¬هاي تحقيقاتي از جمله سيستم¬هاي بازشناسي گفتار ايفا مي-كند. اين مدل¬ها با يادگيري ساختار نحوي زبان طبيعي، دنباله كلمات محتمل را تعيين نموده و با محدود كردن فضاي جستجو، نتايج حاصل از بازشناسي گفتار را بهبود مي¬بخشند. از آنجايي كه مدل ساخته شده براي يك زبان، ثابت نبوده و تحت تاثير ويژگي¬هاي لغوي، نحوي و معنايي داده¬هاي آموزش¬ديده، مي¬باشد، مساله تطبيق مدل زباني مطرح مي¬شود. به¬طور كلي مدل زباني تطبيق¬پذير به دنبال ارائه¬ي مدلي است كه با تغيير ساختار متن مانند موضوع آن، بتواند عملكرد خوبي را از خود نشان دهد. براي ساخت چنين مدلي، ما نياز به استفاده از اطلاعات مختلف زباني از جمله ادات سخن (POS) داريم. در اين پايان¬نامه، سه روش پيشنهادي براي استفاده از اطلاعات ادات سخن به همراه روش¬هاي مولد براي بهبود نتايج بازشناسي ارائه شده است. روش پيشنهادي اول كه مبتني بر مدل زباني كلاس ديريكله (DCLM) مي¬باشد، علاوه بر اطلاعات ترتيب رخداد كلمات پيشين، از اطلاعات ادات سخن اين كلمات نيز براي دسته¬بندي كلمات استفاده مي¬كند. در روش پيشنهادي دوم كه مبتني بر مدل زباني كلاس ديريكله نهان (CDCLM) است، در دسته¬بندي كلمات علاوه بر اطلاعات ترتيب رخداد كلمات پيشين و كلاس مربوط به اين كلمات از اطلاعات ادات سخن كلمات پيشين نيز استفاده مي¬شود. در روش پيشنهادي سوم، ابتدا مدل فاكتورگرا ساخته شده و سپس با مدل زباني كلاس ديريكله و مدل زباني كلاس ديريكله نهان تطبيق داده مي¬شوند. مدل¬ فاكتورگرا مشابه مدل n-گرام بوده، با اين تفاوت كه علاوه بر خود كلمه، فاكتورهاي ديگري از كلمه مانند ادات سخن را نيز در تخمين احتمال وقوع كلمه دخيل مي¬كند. براي ارزيابي مدل¬هاي زباني از دو معيار سرگشتگي و نرخ خطاي بازشناسي كلمه استفاده مي¬كنيم. براي محاسبه معيار سرگشتگي از مكانيزم 10- قسمتي روي پيكره بي¬جن¬خان استفاده مي¬شود و بدين ترتيب ميانگين سرگشتگي مدل¬ها در كل پيكره بدست مي¬آيد. براي ارزيابي معيار نرخ خطاي كلمه مدل¬هاي زباني در سيستم بازشناسي گفتار، ابتدا با استفاده از مدل مخفي ماركف، مدل آكوستيك روي پيكره فارس¬دات ميكروفوني كوچك ساخته مي¬شود و سپس مدل¬هاي زباني را با يك روش پيشنهادي به دو صورت درون¬يابي خطي و لگاريتمي- خطي با مدل آكوستيك تركيب مي¬كنيم. اين تركيب بدين صورت انجام مي¬شود كه ابتدا ليستي از چند- بهترين به همراه احتمال رخداد آن¬ها كه توسط مدل آكوستيك پيشنهاد داده مي¬شود، بدست آمده و سپس با احتمال پيشنهادي مدل زباني براي اين چند¬- بهترين تركيب مي¬شود. در هر دو ارزيابي، مدل تركيب خطي فاكتورگرا با مدل زباني كلاس ديريكله نهان بهترين كارايي را از خود نشان مي¬دهد، بطوريكه ميزان كاهش 194 براي سرگشتگي و كاهش ¬7/1 درصد نيز در نرخ خطاي بازشناسي كلمه با تركيب لگاريتمي- خطي مدل زباني و آكوستيك گزارش شده است.
واژههاي كليدي:
بازشناسي گفتار، مدل زباني، تطبيق مدل زباني، روش¬هاي مولد، ادات سخن، سرگشتگي، نرخ خطاي كلمه
-
لينک به اين مدرک :