سينا پيري

عنوان

بهبود رمزگشاي بازشناسي گفتار با استفاده از مدل زباني

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

هوش مصنوعي

سال تحصيل

۱۳۹۴

تاريخ دفاع

۱۳۹۷/۸/۳۰

استاد راهنما

دكتر احمد اكبري ازيراني

استاد مشاور

دكتر بابك ناصرشريف

دانشكده

كامپيوتر

چكيده

بازشناسي خودكار گفتار يكي ااز زمينه هاي تحقيقاتي در پردازش گفتار مي باشد و هدف اصلي آن تبديل سيگنال گفتار به دنباله اي از كلمات مي باشد. سامانه هاي مورد استفاده در بازشناسي گفتار داراي چندين مولفه از جمله پيش پردازش صوت، مدل صوتي، لغت نامه ، مدل زباني و رمزگشا مي باشند. در سال هاي اخير گرايش زيادي به سامانه هاي جديدي تحت عنوان سامانه هاي انتها به انتها (E2E (در حوزه تحقيقات ASR به وجود آمده است. يك سامانه E2E بازشناسي گفتار دنباله ورودي ويژگي هاي صوتي را به دنباله ي خروجي احتمالات نشانه هاي (واج ها، حروف و يا كلمات) تبديل مي كند. يͺ ͬاز روش ها بر پايه سامانه هاي E2E يك شبكه عصبي را با استفاده از تابع خطاي رده بندي زماني اتصال گرا (CTC (آموزش مي دهد. زماني كه دنباله ورودي ناشناخته شبكه آموزش ديد، بايستي رمزگشا با انتخاب محتمل ترين برچسب زني مانند مانند x را برچسب بزند. براي رمزگشايي CTC الگوريتم هاي متفاوت رمزگشايي نظير الگوريتم رمزگشايي بهترين مسير و جستجوي پرتوي پيشوند(PBS (به عنوان روش هاي پايه معرفي شده اند. در روش PBS ، سعي بر كاهش خطاي حاصل شده از CTC با استفاده از مدل زباني مي باشد. در اين پايان نامه به اصلاح الگوريتم رمزگشايي PBS و بهبود آن با اعمال جريمه به احتمال كلمات خارج از واژگان (OOV (مدل زباني پرداختيم. كلماتي كه توسط بازشناس گفتار به صورت اشتباه تشخيص داده مي شوند، در بسياري از مواقع به كلماتي تبديل مي شوند كه در مدل زباني وجود ندارند يا به عبارتي ديگر كلمات OOV مي باشند. از اين رو اعمال جريمه بر احتمال اين كلمات، احتمال جمله هايي كه بازشناس اشتباه كرده را كم مي كند. براي پياده سازي روش پيشنهادي، ابتدا ساختار الگوريتم PBS را اصلاح مي كنيم. سپس با در نظر گرفتن احتمال كلمات OOV و اعمال جريمه بر احتمال آن ها در رمزگشايي سعي در بهبود نتيجه مورد نظر داريم. در ادامه سعي بر تنظيم مقدار جريمه با استفاده از آنتروپي خروجي CTC داريم. روش پيشنهادي موجب بهبود خروجي رمزگشا و كاهش خطا نسبت به الگوريتم PBS شده است. در مجموعه دادگان Librispeech نرخ خطاي كلمه از(WER (١٠٫٠٧٩ در روش PBS به ٩٫۴۴٠ و در مجموعه دادگان LIUM-TED نرخ خطاي كلمه از ٢٨٫٨٩۴ به ٢٨٫١٧٢رسيده است. در ديگر معيار ارزيابي نرخ خطاي حرف (CER (نيز در مجموعه دادگان Librispeech از ٢٫٧٣۵ به ٢٫۶۶٩و در مجموعه دادگان LIUM-TED از ٨٫٩٨٠ به ٨٫٨٠١ رسيده است.

تاريخ ورود اطلاعات

1397/12/20

عنوان به انگليسي

Improvement of speech recognition decoder using language model

تاريخ بهره برداري

3/11/2019 12:00:00 AM

دانشجوي وارد كننده اطلاعات

سينا پيري

Name: سينا پيري
Author: سينا پيري

چكيده به لاتين

ASR is one of the main research topics in speech processing and its main goal is to convert speech signal to a sequence of words. Systems used in speech recognition have some components like audio preprocessing, acoustic model, Lexical, language model, and decoder. In recent years there was a great trend on new systems called End-to-End (E2E) systems. An E2E ASR systems convert a feature sequence x to an output sequence of symbols probabilities(phonemes, characters or words). One of the methods based on E2E systems trains a neural network with the Connectionist Temporal Classification (CTC) loss function. Once the network is trained, the decoder must label the unknown input sequence x by choosing the most probable labeling l ∗ . For decoding CTC networks the Bestpath decoding and Prefix Beam Search(PBS) are introduced as a baseline. In PBS we try to reduce the error with the language model. In this thesis, we corrected the BPS decoding and improved it by applying a penalty to unknown or Out-Of-Vocabulary (OOV) words in the language model. Many times words that are mistakenly recognized by speech recognizer are OOV’s. Thus applying the penalty to these words probability will reduce the probability of the wrong guesses. In order to implement our idea, first, we need to correct the PBS algorithm. Then with applying a penalty on OOV probability in decoding, we try to get better results. Next, we try to tune the penalty by CTC output entropy. The proposed method will improve the decoder’s output and reduce the error compared to the base PBS algorithm. In the Librispeech dataset the Word Error Rate (WER) is reduced from 10.079 to 9.440 and in TED-LIUM dataset is reduced from 28.894 to 28.172. The other evaluation term Character Error Rate(CER) in Librispeech dataset is reduced from 2.735 to 2.669 and in TED-LIUM is reduced from 8.980 to 8.801.

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=20184&Field=0&DTC=6