شماره ركورد
33870
پديد آورنده
زمن جبر
عنوان
تشخيص گفتار عربي از روي نشانههاي بصري با استفاده از يادگيري عميق در مهندسي كامپيوتر، گرايش هوش مصنوعي
مقطع تحصيلي
دكتري
رشته تحصيلي
مهندسي كامپيوتر-هوش مصنوعي و رباتيك
سال تحصيل
1399
تاريخ دفاع
1404/6/30
استاد راهنما
ناصر مزيني
استاد مشاور
صالح اعتمادي
دانشكده
پرپرديس دانشگاهي - دانشكده مهندسي كامپيوتر
چكيده
تشخيص گفتار بصري يا لبخواني، در ارتباطات انساني و درك گفتار بسيار مهم است. لبخواني يك كار چالشبرانگيز است كه براي دستيابي به دقت بالا به مدلهاي يادگيري عميق نياز دارد. محققان مدلهاي يادگيري عميق زيادي را با استفاده از شبكههاي عصبي عميق با حروف، ارقام، كلمات و جملات براي زبانهاي ديگر، به جز عربي، معرفي كردهاند. دليل اصلي تعداد كم مطالعات لبخواني در زبان عربي، عدم دسترسي به يك مجموعه داده در مقياس بزرگ است كه بتوان از آن براي آموزش يك DNN استفاده كرد. كار انجام شده در اين پاياننامه به لبخواني خودكار عربي در سطوح كلمه و جمله با استفاده از DNN فقط با نشانههاي بصري كمك ميكند. ما تلاش كرديم تا راه حلي براي مشكل كمبود يك مجموعه داده عربي در مقياس بزرگ براي آموزش يك مدل DNN پيدا كنيم. براي اين منظور، ما يك مدل لبخواني عربي سرتاسري پيشنهاد ميكنيم كه ميتواند روي يك مجموعه داده محدود آموزش داده شود، كه تركيبي از يك ماژول بصري متشكل از يك شبكه عصبي كانولوشني چند لايه (CNN) و يك ماژول زماني متشكل از واحد بازگشتي دروازهاي (GRU) و لايههاي soft-max است و تعادل بين اندازه مجموعه داده و تعداد پارامترهاي مدل را در نظر ميگيرد. براي آموزش اين مدل، ما يك مجموعه داده عربي محدود شامل 20 كلمه كه توسط 40 گويشور بومي عرب صحبت ميشود، ايجاد كرديم. در سطح كلمه، روش پيشنهادي ما روي موارد زير ارزيابي ميشود: 1) مجموعه داده خودمان، كه در آن به دقتي معادل 83.02٪ دست يافتيم؛ 2) مجموعه داده Dweik و همكاران، كه در آن به نرخ بهبود ≈ 3٪ در نتيجه ثبت شده توسط كار آنها دست يافتيم. علاوه بر اين، ما از ماژول بصري براي شناسايي فرد با استفاده از تصوير viseme استفاده كرديم و نتيجهاي با عملكرد بالا به دست آورديم. در سطح جمله، ما همان مدل سرتاسري را اصلاح كرديم تا از دو منظر به مسئله بپردازيم: اول، به عنوان يك مسئله طبقهبندي، و دوم، به عنوان يك مسئله پيشبيني توالي. اين اصلاح فقط در ماژول Temporal اعمال ميشود، در حالي كه مدل Vis-ual بدون تغيير باقي ميماند. در مسئله طبقهبندي، ماژول Temporal از مجموعهاي از GRUها و يك لايه كاملاً متصل تشكيل شده است. در مسئله پيشبيني توالي، ماژول Temporal شبكه رمزگذار-رمزگشا است. رمزگذار از سه لايه GRU تشكيل شده است، در حالي كه رمزگشا از دو لايه GRU با يك مكانيسم توجه تشكيل شده است. براي آموزش مدل سرتاسري، ما يك مجموعه داده در سطح جمله براي زبان عربي جمعآوري كرديم كه شامل 55 جمله با 139 كلمه منحصر به فرد است كه توسط 40 نفر بيان ميشود، از جمله 28 جمله خبري، 20 جمله پرسشي و 7 جمله درخواستي. اين مجموعه داده بزرگترين مجموعه داده در سطح جمله زبان عربي است كه به مسئله لبخواني ميپردازد. ما اين مجموعه داده را شامل هر 28 واج در زبان عربي كرديم. اين ويژگي فقط در مجموعه دادههاي ما وجود دارد و در تمام كارهاي قبلي براي زبان عربي وجود ندارد. براي مسئله طبقهبندي جمله، مدل سرتاسري ابتدا روي مجموعه دادههاي ما اعمال شد و دقت تشخيص 90.45٪ براي آزمايشهاي وابسته به شخص و 71.53٪ براي آزمايشهاي مستقل از شخص به دست آمد. سپس، در مجموعه دادههاي BlidAVS10 استفاده شد و دقت 83.09 براي آزمايش مستقل از شخص به دست آمد. براي مسئله پيشبيني توالي، مدل سرتاسري روي مجموعه دادههاي ما اعمال شد و نرخ خطاي كلمه (WER) 80.51٪ را به دست آورد.
تاريخ ورود اطلاعات
1404/08/05
عنوان به انگليسي
Arabic Speech Recognition from Visual Cue Us-ing Deep Learning
تاريخ بهره برداري
9/22/2025 12:00:00 AM
دانشجوي وارد كننده اطلاعات
زمن جبر
چكيده به لاتين
Visual speech recognition (VSR), or lip-reading, is crucial in human communication and speech understanding. Lip-reading is a challenging task that requires deep learning models to achieve high accuracy. The researchers introduced many deep learning models using Deep Neural Networks (DNNs) with letters, digits, words, and sentences for other lan-guages, but not Arabic. The main reason for the low number of lip-reading studies in Arabic is the unavailability of a large-scale dataset that can be used to train a DNN. The work in this thesis contributes to automatic Arabic lip-reading at the word and sen-tence levels using DNN with visual cues only. We attempted to find a solution to the prob-lem of lacking a large-scale Arabic dataset for training a DNN model. To this end, we pro-pose an end-to-end Arabic lip-reading model that can be trained on a limited dataset, which combines a Visual module consisting of a multi-layer Convolutional Neural Network (CNN) and a Temporal module comprised of Gated Recurrent Unit (GRU) and soft-max layers, taking into account the balance between the size of the dataset and the number of model parameters. To train this model, we created a limited Arabic dataset comprising 20 words spoken by 40 native Arabic speakers. At the word level, our proposed method is evaluated on 1) our dataset, where we obtained an accuracy equal to 83.02%; 2) the Dweik et al. dataset, where we obtained an improvement rate of ≈ 3% on the result recorded by their work. In addition, we employed the Visual module for person identification using the viseme image and obtained a high-performance result. At the sentence level, we modified the same end-to-end model to address the problem from two perspectives: first, as a classification problem, and second, as a sequence predic-tion problem. The modification is only applied to the Temporal module, while the Visual model remains unchanged. In the classification problem, the Temporal module consists of a stack of GRUs and a fully connected layer. In the sequence prediction problem, the Tem-poral module is the encoder-decoder network; the encoder consists of three GRU layers, while the decoder consists of two GRU layers with an attention mechanism. To train the end-to-end model, we collected a sentence-level dataset for the Arabic language, compris-ing 55 sentences with 139 unique words uttered by 40 individuals, including 28 declarative sentences, 20 interrogative sentences, and 7 request sentences. This dataset is the largest sentence-level Arabic language dataset addressing lip-reading problem. We made this da-taset involve all 28 phonemes in Arabic; this attribute is only in our dataset and is missing in all previous works for the Arabic language. For the sentence classification problem, the end-to-end model was first applied to our da-taset, yielding recognition accuracies of 90.45% for person-dependent and 71.53% for per-son-independent experiments. Then, it was used in the BlidAVS10 dataset, and an accura-cy of 83.09 was obtained for the person-independent experiment. For the sequence predic-tion problem, the end-to-end model was applied to our dataset, yielding an 80.51% Word Error Rate (WER).
كليدواژه هاي فارسي
لبخواني عربي , نشانههاي بصري , شبكههاي عصبي عميق
كليدواژه هاي لاتين
Arabic Lip-reading , visual cues , Deep Neural Networks
Author
zamen jabar
SuperVisor
Dr naser Mozayeni