-
شماره ركورد
27639
-
پديد آورنده
فرزاد مهجور
-
عنوان
كدگشايي تصور گفتار از سيگنال EEG با استفاده از شبكههاي عصبي عميق
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
مهندسي پزشكي
-
تاريخ دفاع
1401/07/19
-
استاد راهنما
دكتر دليري
-
دانشكده
مهندسي برق
-
چكيده
گفتار مكانيزم پيچيدهاي است كه به ما امكان ميدهد نيازها، خواستهها و افكار خود را با هم در ميان بگذاريم. در برخي از آسيبهاي ناشي از اختلالات عصبي، اين توانايي به شدت تحت تأثير قرار مي گيرد، كه باعث ميشود فعاليتهاي روزمره زندگي كه نياز به برقراري ارتباط دارند به چالش كشيده شود. رابط مغز و رايانه (BCI) مبتني بر گفتار پنهان مي تواند به افراد داراي معلوليت كمك كند تا كيفيت زندگي خود را بهبود بخشند. همچنين مي تواند براي ارتباطات مخفي در محيطهايي كه از ارتباط صوتي پشتيباني نميكند استفاده شود. يكي از پراستفادهترين سيگنالهاي عصبي براي كنترل فرمان در BCI، سيگنالهاي الكتروانسفالوگرام (EEG) ميباشد. شبكههاي عصبي كانولوشنال (CNN)، كه در بينايي كامپيوتري و تشخيص گفتار براي انجام استخراج و طبقهبندي خودكار ويژگيها استفاده شدهاند، با موفقيت در BCIهاي مبتني بر EEG نيز استفاده شده است.
ما در اين پاياننامه استفاده از نوع خاصي از كانولوشنها به نام دپثوايز را براي ساخت يك مدل CNN خاص معرفي ميكنيم كه با كاهش تعداد پارامترهاي شبكه، محدوديت داده آموزشي را جبران ميكند و استخراج ويژگي سيگنال EEG براي BCI را بر عهده ميگيرد. همچنين پارامترهاي مختلف يك سيستم تشخيص تصور گفتار را براي به دست آوردن بهترين عملكرد كه ميتواند بر روي يك سيستم كمهزينه با منابع محدود اعمال شود را مورد مطالعه قرار ميدهيم. براي تست اين سيستم از سيگنالهايي از پايگاه داده Kara One استفاده شده است كه حاوي ثبتهاي به دست آمده براي هفت واج و چهار كلمه است. مطالعه بر روي هشت سوژه مختلف و بصورت اشتراكي انجام شده است. چندين معماري شبكههاي عصبي كانولوشنال (CNN) مطالعه شده است و در نتيجه مشاهده ميگردد كه معماري پيچيدهتر لزوما به نتايج بهتري منجر نميشود. علاوه بر اين، عملكرد سيستم هنگام استفاده از طولهاي مختلف پنجره براي سيگنال ورودي (0.25 ثانيه، 0.5 ثانيه و 1 ثانيه) مشاهده گرديده است تا اهميت تحليل كوتاهمدت سيگنالها براي تصور گفتار بررسي شود. در مرحله استخراج ويژگي از روشي مبتني بر كوواريانس متقاطع در حوزه فركانس استفاده شده است كه با ٪16 افزايش دقت نسبت به كواريانس در حوزه زمان به دقت 37٪ براي طبقهبندي 11 كلاسه دست يافتيم كه در مقايسه با ساير روشهاي حوزه زمان عملكرد بهتري داشته است.
-
تاريخ ورود اطلاعات
1401/10/07
-
عنوان به انگليسي
Decoding speech imagery from EEG signal using deep neural networks
-
تاريخ بهره برداري
10/11/2023 12:00:00 AM
-
دانشجوي وارد كننده اطلاعات
فرزاد مهجور
-
چكيده به لاتين
Speech is a complex mechanism that allows us to communicate our needs, desires and thoughts. In some neurological disorders, this ability is severely affected, making activities of daily living that require communication challenging. A brain-computer interface (BCI) based on hidden speech can help people with disabilities to improve their quality of life. It can also be used for covert communication in environments that do not support voice communication. One of the most widely used neural signals for command control in BCI is electroencephalogram (EEG) signals. Convolutional neural networks (CNNs), which have been used in computer vision and speech recognition to perform automatic feature extraction and classification, have also been successfully used in EEG-based BCIs.
In this thesis, we introduce the use of a special type of convolutions called Depthwise to build a specific CNN model that compensates for the limitation of the training data by reducing the number of network parameters and takes over the feature extraction of the EEG signal for BCI. We also study various parameters of a speech perception recognition system to obtain the best performance that can be implemented on a low-cost system with limited resources. To test this system, signals from the Kara One database have been used, which contains recordings obtained for seven phonemes and four words. The study has been done on eight different subjects in a collaborative manner. Several Convolutional Neural Networks (CNN) architectures have been studied, and as a result, it is observed that a more complex architecture does not necessarily lead to better results. In addition, the performance of the system has been observed when using different window lengths for the input signal (0.25 s, 0.5 s and 1 s) to investigate the importance of short-term analysis of signals for speech perception. In the phase of feature extraction, a method based on cross covariance in the frequency domain has been used, and with a 6% increase in accuracy compared to the covariance in the time domain, we have achieved 31% accuracy for the classification of 11 classes, which has performed better compared to other methods in the time domain.
-
كليدواژه هاي فارسي
واسط مغز و كامپيوتر , الكتروانسفالوگرافي , تصور گفتار , شبكهي عصبي كانولوشني
-
كليدواژه هاي لاتين
bci , eeg , speech imagery
-
Author
farzad mahjour
-
SuperVisor
Dr. Daliri
-
لينک به اين مدرک :