-
شماره ركورد
31571
-
پديد آورنده
ثمين حيدريان
-
عنوان
لب خواني با استفاده از تقطير دانش
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
مهندسي كامپيوتر - هوش مصنوعي و رباتيكز
-
سال تحصيل
1399
-
تاريخ دفاع
1402/11/08
-
استاد راهنما
ناصر مزيني
-
استاد مشاور
-
-
دانشكده
مهندسي كامپيوتر
-
چكيده
به بازشناسي گفتار بصري، لبخواني گفته ميشود بهطوريكه محتواي گفتار را بر اساس مشخصات حركتي لب و بدون داشتن سيگنال صوت گوينده تشخيص ميدهد. اين تشخيص داراي دو كاربرد اصلي است. كاربرد اول آن، بهبود دقت سيستم تشخيص گفتار است. اهميت اين موضوع مربوط به زماني است كه سيگنال صوتي تحتتأثير نويز قرار بگيرد. كاربرد دوم آن تشخيص گفتار بدون داشتن صوت است كه از جمله اين كاربردها ميتوان به كمك به ناشنوايان، بهبود امنيت تشخيص چهره، رونويسي و دوبله مجدد فيلمهاي صامت و حل گفتار همزمان چند گوينده اشاره كرد. استفاده از روشهاي خود نظارتي، باتوجهبه عملكرد و نتايج خوبي كه در استخراج بازنمايي از خود نشان دادهاند، فراگير شده است. اين بازنمايي¬ها در كارهاي مشخصي مانند مدل لب¬خوان، به همراه برچسب¬ها تنظيم دقيق مي¬شوند. عليرغم موفقيت اين روش، استفاده از آن در فضاي دانشگاهي و صنعت (مخصوصاً شركتهاي كوچك و مشتريان خرد) به دليل هزينه بالاي سختافزاري دور از دسترس است. اين مدلها هم در زمان استنتاج كارهاي پايين¬دستي مانند لب¬خوان كند عمل ميكنند، هم در زمان پيش آموزش مدل خود نظارتي نيز حافظه¬ي زيادي را مصرف ميكنند. در اين پاياننامه از تكنيك تقطير دانش براي حل اين مشكل استفاده شده است. هدف از تقطير دانش كوچككردن مدل لب¬خوان و انتقال دانش از مدل بزرگ (مدل معلم) به مدل كوچك (مدل دانشآموز) است. منظور از دانش در اين تحقيق بازنماييهاي پنهان مدل بزرگ است. با بهرهبردن از تقطير دانش، اندازه مدل ارائه شده 39.75% نسبت به مدل پايه كاهش و سرعت آن حدودا %17 با استفاده از GPU و حدودا 48% با استفاده از CPU افزايش يافته است. لازم به ذكر است اين مدل نسبت به مدل اصلي حدود 8.11% افت عملكرد را به همراه داشته است.
-
تاريخ ورود اطلاعات
1403/09/03
-
عنوان به انگليسي
Lip Reading using Knowledge Distillation
-
تاريخ بهره برداري
1/1/1900 12:00:00 AM
-
دانشجوي وارد كننده اطلاعات
ثمين حيدريان
-
چكيده به لاتين
Visual speech recognition, commonly referred to as lip reading, involves identifying spoken content based on the movement characteristics of the lips without access to the speaker’s audio signal. This capability has two primary applications. The first is improving the accuracy of speech recognition systems, particularly in situations where the audio signal is affected by noise. The second is enabling speech recognition in the absence of audio, which includes applications such as assisting individuals with hearing impairments, enhancing the security of facial recognition systems, transcribing and re-dubbing silent films, and addressing scenarios involving simultaneous speech from multiple speakers. The adoption of self-supervised learning methods has become widespread due to their effectiveness in extracting representations from data. These representations are fine-tuned for specific tasks, such as lip-reading models, using labeled data. Despite the success of this approach, its application in academia and industry (particularly in small companies and for individual clients) remains limited due to the high hardware costs involved. These models not only exhibit slow inference times for downstream tasks like lip reading but also consume significant memory during the pretraining phase of self-supervised models. To address these challenges, this thesis employs knowledge distillation techniques. The primary objective of knowledge distillation is to reduce the size of the lip-reading model by transferring knowledge from a larger model (teacher model) to a smaller model (student model). In this study, "knowledge" refers to the latent representations learned by the teacher model. By leveraging knowledge distillation, the proposed model achieves a 39.75% reduction in size compared to the baseline model, with an inference speed improvement of approximately 17% when using a GPU and 48% when using a CPU. However, this comes at the cost of an 8.11% decrease in performance relative to the original model.
-
كليدواژه هاي فارسي
لب خواني , يادگيري عميق , تقطير دانش , مبدل
-
كليدواژه هاي لاتين
Lip Reading , Deep Learning , Knowledge Distillation , Transformer
-
Author
Samin Heydarian
-
SuperVisor
Dr. Nasser Mozayani
-
لينک به اين مدرک :