امين پوردبيري

عنوان

بهبود تشخيص مكالمه بر اساس ويژگي هاي صوتي و متني

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

مهندسي كامپيوتر - هوش مصنوعي و رباتيكز

سال تحصيل

1397

تاريخ دفاع

1400/12/18

استاد راهنما

محمدطاهر پيله ور

استاد مشاور

بهروز مينايي بيدگلي

دانشكده

مهندسي كامپيوتر

چكيده

با پيشرفت حوزه هاي علمي در زمينه هوش مصنوعي، امكان استفاده از منابع بزرگ و متعدد بيش از پيش فراهم شده است. در روش هاي قديمي تر پردازش داده عموماً از منابعي با ماهيت همگن استفاده مي شد. براي مثال، در پردازش زبان طبيعي، منبع رايج «متن» بوده است. دستاوردهاي اخير يادگيري عميق امكان اين را فراهم آورده كه بتوان از چند نوع داده با ماهيت هاي مختلف در يك راستا استفاده كرده و دقت و كارايي سيستم را افزايش داد. اين روش ها را چندوجهي (چندگونه) مي نامند. با به كارگيري روش هاي چندوجهي در پردازش زبان طبيعي مي توان علاوه بر استفاده از داده هاي مبتني بر متن، از داده هاي مبتني بر تصوير، صوت و غيره نيز بهره برد. اين روش ها مي توانند در حوزه هاي ديگر نيز كارآمد باشند. براي مثال، در صورت از دست رفتن هر يك از گونه هاي اطلاعاتي (مانند داده هاي مبتني بر متن)، مي توان براي جلوگيري از افت شديد دقت و كارايي از گونه هاي ديگر موجود در آن زمينه استفاده كرد (اين گونه ها نيز مي توانند با ماهيت هاي قيد شده باشند كه از انواع معروف آن ها مي توان به داده هاي مبتني بر تصوير و صوت اشاره كرد). مثال ملموس آن استفاده از فيلمي بدون صوت است كه در واقع منبع صوت را از دست داده ايم، اما همچنان قادر به استفاده از تصاوير موجود در فيلم خواهيم بود و خود مي توانند اطلاعات بسيار ارزشمندي حتي در غياب صوت در اختيار قرار دهند. در اين پايان نامه، از دادگاني متشكل از زيرنويس فيلم ها استفاده خواهد شد. بدين منظور تعدادي فيلم انتخاب شده و زيرنويس هر يك از فيلم ها با آن ها مطابقت داده خواهد شد. پس از اطمينان از تطابق زيرنويس و هر يك از فيلم ها، صوت هاي متناظر استخراج مي شوند. اكنون صوت و متن مكالمات فيلم در اختيار هستند. در نهايت مدلي آموزش داده مي شود كه قادر است كليه زيرنويس هاي موجود در دادگان مرجع را برچسب گذاري نمايد. همچنين به منظور اعتبارسنجي دادگان برچسب گذاري شده، سيستم مكالمه اي آموزش داده شده است كه كارايي دادگان را به نمايش بگذارد.

تاريخ ورود اطلاعات

1401/08/07

عنوان به انگليسي

Improving Dialogue Turn Detection using Multimodal Signals

تاريخ بهره برداري

3/9/2023 12:00:00 AM

دانشجوي وارد كننده اطلاعات

امين پوردبيري

Name: امين پوردبيري
Author: امين پوردبيري

چكيده به لاتين

Due to recent activities in Artificial Intelligence, it is possible to use more resources with different types. In recent works, they mostly used one resource or dataset to show the results of their new designed networks. For example, in natural language processing, the most commonly used datasets are textual. Nowadays there are several approaches to use multiple datasets with different types. Each dataset may be in the forms of textual, visual, acoustic and etc. and we can use all of them in learning-based tasks like natural processing language instead of using text-based datasets. We call each textual, visual or vocal form, a modality. While we use more than one of these modalities, our task will be a multimodal processing. Using a multimodal approach may result in better accuracy. The multimodal approach can often be used in recovering a network in the absence of each modality. In these situations, we can use other modalities to prevent sudden drop in performance of the system. As an instance, even if losing the sound of a video in the video processing task, the visual and textual (e.g. subtitles) modalities may result in informative data.

كليدواژه هاي فارسي

چندوجهي , وجه , تركيب وجه ها , متن و صوت , مكالمات فيلم

كليدواژه هاي لاتين

Multimodal , Modality , Multimodal fusion , Text and Voice , Movie dialogues

Author

Amin Pourdabiri

SuperVisor

Mohammad Taher Pilehvar

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=27241&Field=0&DTC=6