فرزاد مهجور

عنوان

كدگشايي تصور گفتار از سيگنال EEG با استفاده از شبكه‌هاي عصبي عميق

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

مهندسي پزشكي

تاريخ دفاع

1401/07/19

استاد راهنما

دكتر دليري

دانشكده

مهندسي برق

چكيده

گفتار مكانيزم پيچيده‌اي است كه به ما امكان مي‌دهد نيازها، خواسته‌ها و افكار خود را با هم در ميان بگذاريم. در برخي از آسيب‌هاي ناشي از اختلالات عصبي، اين توانايي به شدت تحت تأثير قرار مي گيرد، كه باعث مي‌شود فعاليت‌هاي روزمره زندگي كه نياز به برقراري ارتباط دارند به چالش كشيده شود. رابط‌ مغز و رايانه (BCI) مبتني بر گفتار پنهان مي تواند به افراد داراي معلوليت كمك كند تا كيفيت زندگي خود را بهبود بخشند. همچنين مي تواند براي ارتباطات مخفي در محيط‌هايي كه از ارتباط صوتي پشتيباني نمي‌كند استفاده شود. يكي از پراستفاده‌ترين سيگنال‌هاي عصبي براي كنترل فرمان در BCI، سيگنال‌هاي الكتروانسفالوگرام (EEG) مي‌باشد. شبكه‌هاي عصبي كانولوشنال (CNN)، كه در بينايي كامپيوتري و تشخيص گفتار براي انجام استخراج و طبقه‌بندي خودكار ويژگي‌ها استفاده شده‌اند، با موفقيت در BCIهاي مبتني بر EEG نيز استفاده شده است. ما در اين پايان‌نامه استفاده از نوع خاصي از كانولوشن‌ها به نام دپث‌وايز را براي ساخت يك مدل CNN خاص معرفي مي‌كنيم كه با كاهش تعداد پارامترهاي شبكه، محدوديت داده آموزشي را جبران مي‌كند و استخراج ويژگي سيگنال‌ EEG براي BCI را بر عهده مي‌گيرد. همچنين پارامترهاي مختلف يك سيستم تشخيص تصور گفتار را براي به دست آوردن بهترين عملكرد كه مي‌تواند بر روي يك سيستم كم‌هزينه با منابع محدود اعمال شود را مورد مطالعه قرار مي‌دهيم. براي تست اين سيستم از سيگنال‌هايي از پايگاه داده Kara One استفاده شده است كه حاوي ثبت‌هاي به دست آمده براي هفت واج و چهار كلمه است. مطالعه بر روي هشت سوژه مختلف و بصورت اشتراكي انجام شده است. چندين معماري شبكه‌هاي عصبي كانولوشنال (CNN) مطالعه شده است و در نتيجه مشاهده مي‌گردد كه معماري پيچيده‌تر لزوما به نتايج بهتري منجر نمي‌شود. علاوه بر اين، عملكرد سيستم هنگام استفاده از طول‌هاي مختلف پنجره براي سيگنال ورودي (0.25 ثانيه، 0.5 ثانيه و 1 ثانيه) مشاهده گرديده است تا اهميت تحليل كوتاه‌مدت سيگنال‌ها براي تصور گفتار بررسي شود. در مرحله استخراج ويژگي از روشي مبتني بر كوواريانس متقاطع در حوزه فركانس استفاده شده است كه با ٪16 افزايش دقت نسبت به كواريانس در حوزه زمان به دقت 37٪ براي طبقه‌بندي 11 كلاسه دست يافتيم كه در مقايسه با ساير روش‌هاي حوزه زمان عملكرد بهتري داشته است.

تاريخ ورود اطلاعات

1401/10/07

عنوان به انگليسي

Decoding speech imagery from EEG signal using deep neural networks

تاريخ بهره برداري

10/11/2023 12:00:00 AM

دانشجوي وارد كننده اطلاعات

فرزاد مهجور

Name: فرزاد مهجور
Author: فرزاد مهجور

چكيده به لاتين

Speech is a complex mechanism that allows us to communicate our needs, desires and thoughts. In some neurological disorders, this ability is severely affected, making activities of daily living that require communication challenging. A brain-computer interface (BCI) based on hidden speech can help people with disabilities to improve their quality of life. It can also be used for covert communication in environments that do not support voice communication. One of the most widely used neural signals for command control in BCI is electroencephalogram (EEG) signals. Convolutional neural networks (CNNs), which have been used in computer vision and speech recognition to perform automatic feature extraction and classification, have also been successfully used in EEG-based BCIs. In this thesis, we introduce the use of a special type of convolutions called Depthwise to build a specific CNN model that compensates for the limitation of the training data by reducing the number of network parameters and takes over the feature extraction of the EEG signal for BCI. We also study various parameters of a speech perception recognition system to obtain the best performance that can be implemented on a low-cost system with limited resources. To test this system, signals from the Kara One database have been used, which contains recordings obtained for seven phonemes and four words. The study has been done on eight different subjects in a collaborative manner. Several Convolutional Neural Networks (CNN) architectures have been studied, and as a result, it is observed that a more complex architecture does not necessarily lead to better results. In addition, the performance of the system has been observed when using different window lengths for the input signal (0.25 s, 0.5 s and 1 s) to investigate the importance of short-term analysis of signals for speech perception. In the phase of feature extraction, a method based on cross covariance in the frequency domain has been used, and with a 6% increase in accuracy compared to the covariance in the time domain, we have achieved 31% accuracy for the classification of 11 classes, which has performed better compared to other methods in the time domain.

كليدواژه هاي فارسي

واسط مغز و كامپيوتر , الكتروانسفالوگرافي , تصور گفتار , شبكه‌ي عصبي كانولوشني

كليدواژه هاي لاتين

bci , eeg , speech imagery

Author

farzad mahjour

SuperVisor

Dr. Daliri

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=27639&Field=0&DTC=6