• شماره ركورد
    10041
  • شماره راهنما(اين فيلد مربوط به كارشناس ميباشد لطفا آن را خالي بگذاريد)
    10041
  • پديد آورنده

    بهزاد زماني دهكردي

  • عنوان
    ارائه چارچوبي براي تبديلات متمايزساز ويژگي¬ها به منظور افزايش نرخ بازشناسي گفتار
  • مقطع تحصيلي
    درجه دكترا
  • رشته تحصيلي
    مهندسي كامپيوتر گرايش هوش مصنوعي و رباتيك
  • سال تحصيل
    خردادماه 1391
  • تاريخ دفاع
    خردادماه 1391
  • استاد راهنما
    دكتر احمد اكبري
  • استاد مشاور
    دكتر بابك ناصرشريف
  • چكيده
    چكيده سيستم¬هاي بازشناسي خودكار گفتار را مي¬توان شامل دو بخش استخراج ويژگي و بخش مدل كردن آماري ويژگي¬ها دانست. ويژگي¬هاي گفتاري بايد خصوصيات برجسته¬تري از گفتار را براي تمايز بهتر واحدهاي مختلف گفتاري از يكديگر تعيين كنند. گاه اين ويژگي¬ها به واسطه لهجه و نحوه گويش گفتار، تغيير گويندگان يا حضور نويز خصوصيت متمايزسازي خود را تا اندازه زيادي از دست مي¬دهند. تبديل ويژگي مي¬تواند پس از استخراج ويژگي بكار رود تا به اين متمايزسازي كمك نمايد. روش¬هاي تبديل ويژگي را مي¬توان به دو گروه مبتني بر داده و مبتني بر رده¬بند تقسيم كرد. درواقع معيار تخمين تبديل، تعيين كننده نوع تبديل است. اگر معيار فقط برمبناي رفتار آماري ويژگي¬ها و توصيف داده¬ها باشد، روش مبتني بر داده و اگر معيار بر اساس خطاي رده¬بندي باشد، روش را مبتني بر رده¬بند مي¬نامند. طبعاً بهره¬گيري از هر دو معيار مي¬تواند در تخمين تبديل ويژگي بهتر موثر باشند. چون هم بايد به ماهيت ويژگي¬ها توجه داشت و هم به نحوه عملكرد رده¬بند. روش¬هاي تبديل ويژگي را مي¬توان از ديدگاهي ديگر به روش¬هاي تبديل ويژگي خطي و غيرخطي تقسيم نمود. ويژگي¬هاي جديد در تبديلات خطي براساس ميانگين وزندار ويژگي¬هاي اصلي بدست مي¬آيند. اما تبديلات غيرخطي با يك نگاشت غيرخطي عمل تبديل را انجام مي¬دهند. در اين رساله هدف ارائه چارچوب تبديل ويژگي مبتني بر داده - رده¬بند براي افزايش نرخ بازشناسي در سيستم¬هاي بازشناسي گفتار مي¬باشد. براي نيل به اين هدف پيشنهاداتي در هر دو حوزه¬ي خطي و غيرخطي مطرح شده است. در رويكرد خطي، روش¬هاي تبديل ويژگي مبتني بر داده خطي نظير تحليل مولفه¬هاي اصلي و تحليل متمايزساز خطي با بكارگيري خطاي رده¬بندي كمينه و درست¬نمايي¬هاي مدل مخفي ماركوف در فرايند تخمين تبديل بهبود داده شدند. سپس براي رفع مشكل قرارگيري روش خطاي رده¬بندي كمينه در مي¬نيمم¬هاي محلي، گراديان كاهشي با الگوريتم ژنتيك جايگزين شد (روش GAML). روش¬هاي تبديل ويژگي خطي براي دادگاني كه ذاتاً تفكيك¬¬پذير خطي نيستند كارآيي لازم را نداشته از اينرو در گام بعد تبديل مبتني بر خطاي رده¬بند كمينه با استفاده از مفاهيم هسته به شكل غيرخطي ارائه و فرموله شد. اين روش خطاي رده¬بندي كمينه مبتني بر هسته (KMCE) ناميده شد. روش¬هاي تبديل ويژگي غيرخطي مبتني بر داده همچون تحليل مولفه¬هاي اصلي مبتني بر هسته و تحليل متمايزساز مبتني بر هسته نيز به خطاي رده¬بندي توجهي نداشته و از سوئي عملكرد آنها وابسته به انتخاب مناسب تابع هسته مي¬باشد. از اين رو روشي پيشنهاد شده است تا تابع هسته براي اين روش¬ها به نحوي تعيين شود كه در انجام نگاشت، خطاي رده¬بندي نيز مد نظر قرار گيرد. اين تابع هسته با استفاده از الگوريتم ژنتيك و برنامه¬ريزي ژنتيك و تركيب خطي و غيرخطي توابع هسته شناخته شده نظير توابع هسته گاوسي و چندجمله¬اي و با توجه به معيار خطاي رده¬بندي كمينه و اطلاعات متقابل ويژگي¬ها و رده¬ها تعيين مي¬گردد. آزمايشات روي دادگان گفتاري TIMIT و AURORA2 ونيز دادگان غيرگفتاري UCI انجام شده است. نتايج آزمايش‌ها نشانگر آن است كه روش¬هاي پيشنهادي تبديل ويژگي مبتني بر داده-رده¬بند سبب افزايش كارايي روش‌هاي كلاسيك تبديل ويژگي شده¬اند. روش GAML به طور ميانگين باعث افزايش نرخ بازشناسي گفتار به ميزان 1% و 4.41% به ترتيب روش دادگان گفتاري TIMIT و Aurora2 نسبت به ضرايب مل¬كپستروم (MFCCs) گرديده است. روش غيرخطي KMCE نيز باعث افزايش نرخ بازشناسي روي Aurora2 به ميزان 3.72% نسبت به MFCC شده است. در نهايت روش تركيب غيرخطي توابع هسته با برنامه¬نويسي ژنتيك سبب افزايش نرخ بازشناسي به ميزان 3.5% نسبت به MFCC شده است. واژه‌هاي كليدي: بازشناسي گفتار، تبديل وي‍ژگي، خطاي رده¬بندي كمينه،تحليل مولفه¬هاي اصلي، تحليل متمايزساز خطي، تابع هسته.