چکيده
چكيده
امروزه از يادگيري عميق در پردازش گفتار و منابع شنيداري به صورت گسترده استفاده مي شود، برخي از اين
پردازش ها از جمله جدا كردن صحبت اشخاص، بازشناسي گفتار اتوماتيك و ارزيابي كيفيت گفتار در اين سمينار
مطرح شده اند و رويكردهاي دو سه سال اخير مورد بررسي قرار گرفته است. در بازشناسي گفتار اتوماتيك، شبكه
هاي عصبي عميق، كانولوشنال و بازگشتي مي توانند قابليت بهره گيري از اطالعات متني با طول متغيير را فراهم
كنند و بهينه سازي end-to-end با توصيف ويژگي ها كه با اجزاي ديگر سيستم به صورت مشترك يادگرفته مي
شوند و معيار طبقه بندي زماني پيوندگرا ، صورت مي گيرد. جدا سازي گفتار پردازش ديگري است كه با هدف
جدا كردن نويز، تداخل و صحبت چند گوينده انجام مي گيرد . شبكه هاي عصبي عميق با حجم زيادي داده به
اين منظور آموزش مي بيند و با متد هاي خوشه بندي عميق، شبكه هاي نقاط جاذب و آموزش نامتغيير با
جايگشت، گفتار هاي متعلق به اشخاص مختلف را جدا مي كنند و اگر فقط جدا كردن تداخل از صحبت يك
گوينده مد نظر باشد، از ساختاري استفاده مي شود كه چند شبكه با المان هاي متعدد دارد. اگرچه در حالتي كه
الزم باشد منابع مختلف شنيداري از هم جدا شوند، اين كار در دو مرحله با آموزش دهي و شبكه هاي عصبي
عميق مجزا انجام مي شود، تا منابع جدا شده كيفيت مطلوب داشته باشند.
شبكه هاي باور عميق روش نويني براي كالس بندي كيفيت گفتار مطرح كرده كه با ماشين بولتزمن محدود
شده و تابع كرنل خطي ويژگي ها را جدا مي كند كه با روش هاي ذهني قابل رقابت است و مي توان در اپراتورهاي
موبايل از اين مدل بهره گرفت.
كلمات كليدي: بازشناسي گفتار اتوماتيك)ASR ،)ارزيابي كيفيت گفتار،جداسازي منابع، شبكه هاي
باور عميق)DBN ،)شبكه هاي عصبي كانولوشنال )CNN ، )شبكه هاي عصبي بازگشتي)RNN)