• شماره ركورد
    9281
  • پديد آورنده

    فاطمه معرفت

  • عنوان
    تشخيص هوشمند صدا با استفاده از آناليز سيگنال صوتي
  • رشته تحصيلي
    مهندسي مكانيك
  • استاد راهنما
    دكتر برهان بيگ زاده
  • دانشجوي وارد كننده اطلاعات

    فاطمه معرفت

  • تاريخ ورود اطلاعات
    1403/07/15
  • دانشكده
    مهندسي مكانيك
  • عنوان به انگليسي
    Intelligent voice recognition using audio signal analysis
  • چكيده
    در اين پايان‌نامه، يك سيستم شناسايي گوينده بر اساس تحليل سيگنال صوتي معرفي شده است. اين سيستم با استفاده از ضرايب MFCC (ضرايب كپسترال فركانس مل) به‌عنوان ويژگي‌هاي اصلي صوتي، و مدل‌هاي عميق CNN (شبكه عصبي پيچشي) و LSTM (حافظه كوتاه‌مدت بلند) براي شناسايي و تمايز گويندگان مختلف توسعه يافته است. ابتدا سيگنال صوتي ورودي از طريق استخراج MFCC به مجموعه‌اي از ويژگي‌هاي قابل‌استفاده براي مدل تبديل مي‌شود. سپس اين ويژگي‌ها به يك شبكه عصبي پيچشي داده مي‌شوند تا الگوهاي مكاني را استخراج كند. در ادامه، از شبكه LSTM براي مدل‌سازي وابستگي‌هاي زماني موجود در دنباله‌هاي صوتي استفاده مي‌شود. هدف اصلي اين پژوهش، بهبود دقت شناسايي گوينده از طريق استفاده تركيبي از دو مدل CNN و LSTM است. مدل تركيبي پيشنهادي بر روي يك مجموعه داده صوتي شامل نمونه‌هاي گفتاري از چندين گوينده مختلف آموزش داده شده و عملكرد آن با معيارهاي دقت و بازشناسي ارزيابي شده است. نتايج آزمايش‌ها نشان مي‌دهد كه سيستم پيشنهادي قادر است با دقت بالا گويندگان مختلف را شناسايي كند و قابليت تعميم خوبي در مواجهه با داده‌هاي جديد و ناآشنا دارد. اين پژوهش به بهبود عملكرد سيستم‌هاي شناسايي گوينده كمك مي‌كند و مي‌تواند در كاربردهاي مختلفي نظير امنيت صوتي، تعامل انسان و ماشين، و سيستم‌هاي تشخيص هويت مورد استفاده قرار گيرد.