• شماره ركورد
    34669
  • پديد آورنده

    سيدمهدي حسني

  • عنوان
    استفاده از لحن در تعامل مؤثر انسان با ربات‌هاي مجازي
  • مقطع تحصيلي
    دكتري
  • رشته تحصيلي
    كامپيوتر-نرم افزار
  • سال تحصيل
    1399
  • تاريخ دفاع
    1404/11/29
  • استاد راهنما
    دكتر محمدرضا كنگاوري
  • استاد مشاور
    -
  • دانشكده
    كامپيوتر
  • چكيده
    گفتار علاوه بر انتقال محتواي زباني، نقش مهمي در بيان هيجان‌ها و ايجاد تعاملات طبيعي ميان انسان و عامل‌هاي هوشمند ايفا مي‌كند. ازاين‌رو، توليد گفتار آگاه از هيجان به يكي از موضوعات كليدي در حوزه تعامل انسان و رايانه تبديل شده است. با وجود پيشرفت‌هاي اخير در توليد گفتار طبيعي، بسياري از روش‌هاي موجود در شناسايي و انتقال هيجان به گفتار با محدوديت‌هايي نظير وابستگي صرف به متن، تقليد از گفتار مرجع يا تنظيم دستي هيجان مواجه‌اند و عموماً علت شكل‌گيري هيجان در بستر گفت‌وگو را به‌صورت صريح مدل‌سازي نمي‌كنند. در اين رساله، يك روش داده‌محور براي توليد گفتار آگاه از هيجان پيشنهاد مي‌شود كه بر نظريه ارزيابي شناختي استوار است. در اين روش، هيجان‌هاي بلادرنگ عامل مجازي بر اساس متغيرهاي ارزيابي شناختي استخراج‌شده از مكالمه مدل‌سازي شده و علت هيجان به‌عنوان يك مؤلفه بنيادين در فرآيند برانگيختگي هيجاني شناسايي مي‌شود. براي اين منظور، وابستگي‌هاي شناختي، هيجاني و گفتاري مكالمه در قالب يك گراف ناهمگن گفت‌وگو بازنمايي شده و از پيام‌رساني گرافي براي استنتاج نوع، شدت و علت هيجان بهره گرفته مي‌شود. علاوه بر اين، يك مدل متن‌به‌گفتار آگاه از هيجان براي توليد هيجان‌هاي مختلط ارائه مي‌گردد كه با استفاده از اطلاعات هيجان، شدت و علت آن، قادر است تركيب هيجان‌هاي اوليه را به‌صورت پويا، طبيعي و متناسب با زمينه مكالمه بازنمايي كند. نتايج ارزيابي‌هاي عيني و ذهني نشان مي‌دهد كه روش پيشنهادي در مقايسه با روش‌هاي پايه، عملكرد بهتري در انتقال هيجان، طبيعي‌بودن گفتار، تبيين‌پذيري هيجاني و شباهت ادراكي با گفتار مرجع دارد و مي‌تواند تعاملات عاطفي مؤثرتري ميان انسان و عامل‌هاي مجازي فراهم كند.
  • تاريخ ورود اطلاعات
    1405/01/26
  • عنوان به انگليسي
    Using prosody in effective an‎d human-like conversation in humanoid virtual robots
  • تاريخ بهره برداري
    3/21/2026 12:00:00 AM
  • دانشجوي وارد كننده اطلاعات

    سيدمهدي حسني

  • چكيده به لاتين
    Speech, beyond conveying linguistic content, plays a crucial role in expressing emotions an‎d enabling natural interactions between humans an‎d intelligent agents. Consequently, emotional speech synthesis has emerged as a key research topic in the field of human–computer interaction. Despite recent advances in natural speech generation, many existing approaches to emotion recognition an‎d expression in speech suffer from limitations such as exclusive reliance on textual info‎rmation, imitation of reference speech, o‎r manual emotion control, an‎d generally fail to explicitly model the underlying causes of emotion within conversational contexts. In this dissertation, a data-driven approach to emotional speech synthesis grounded in cognitive appraisal theo‎ry is proposed. In this approach, the real-time emotions of a virtual agent are modeled based on cognitive appraisal variables extracted from the dialogue, an‎d the cause of emotion is identified as a fundamental component of the emotional elicitation process. To this end, the cognitive, emotional, an‎d conversational dependencies within the dialogue are represented using a heterogeneous dialogue graph, an‎d graph-based message passing is employed to infer the type, intensity, an‎d cause of emotion. Furthermo‎re, an emotion-aware text-to-speech model is introduced fo‎r the generation of mixed emotions. By inco‎rpo‎rating info‎rmation about emotion, its intensity, an‎d its cause, the proposed model is capable of dynamically an‎d naturally rendering combinations of primary emotions in a manner that is consistent with the conversational context. Objective an‎d subjective eva‎luation results demonstrate that the proposed approach outperfo‎rms baseline methods in terms of emotion conveyance, speech naturalness, emotional explainability, an‎d perceptual similarity to reference speech, thereby enabling mo‎re effective an‎d emotionally rich interactions between humans an‎d virtual agents.
  • كليدواژه هاي فارسي
    توليد گفتارهيجاني , نظريه ارزيابي شناختي , علت هيجان , هيجان‌مختلط , محاسبات عاطفي
  • كليدواژه هاي لاتين
    Emotional speech synthesis , cognitive appraisal theory , emotion cause , mixed emotion , affective computing
  • Author
    Seyyed Mahdi Hassani
  • SuperVisor
    Dr. Mohammad Reza Kangavari