شماره ركورد

12776

عنوان

مروري بر روش‌ها، مجموعه دادگان و معيار‌هاي ارزيابي شرح ويدئو

سال تحصيل

1400

استاد راهنما

دكتر سيد صالح اعتمادي

چکيده

هدف از شرح ويدئو، درك محتواي تصويري موجود در يك ويدئو و شرح محتواي درك شده به صورت خودكار توسط زبان طبيعي است. اين مسئله دو زمينه مهم هوش مصنوعي يعني بينايي ماشين و پردازش زبان طبيعي را به يك ديگر متصل مي‌كند. براي درك محتواي يك ويدئو نياز به درك موجوديت‌هاي درون ويدئو، روابط آن‌ها با يكديگر و همچنين درك رخداد‌هاي درون آن است. نحوه شرح ويدئو به سه صورت مفروض است: 1) عنوان‌بندي ويدئو: شرح تمام يك ويدئو در قالب يك جمله با اين فرض كه يك ويدئو كوتاه معمولا شامل يك رخداد اصلي است. 2) روايت ويدئو: شرح تمام يك ويدئو (بلند‌تر) در قالب يك يا چند پاراگراف كه معمولا جزئيات بيش‌تري دارد و به آن داستان‌سرايي نيز گفته مي‌شود. 3) عنوان‌بندي متراكم ويدئو: تشخيص تمام رخداد‌هاي درون يك ويدئو و شرح هر رخداد توسط يك جمله كه رخداد‌ها مي‌توانند طول‌هاي مختلفي داشته و هم‌پوشاني نيز داشته باشند. در اين حالت برخلاف روش قبل جملات توليد شده داراي انسجام نيستند. كاربرد‌هاي زيادي نيز براي شرح ويدئو وجود دارد كه به عنوان مثال مي‌توان به تعامل انسان و ربات به عنوان يكي از مهم‌ترين اين كاربرد‌ها اشاره كرد. امروزه با پيشرفت روش‌هاي يادگيري عميق شاهد بهبود چشمگير نتايج در مقايسه با روش‌هاي سنتي در تمامي زمينه‌هاي هوش مصنوعي از جمله پردازش متن و تصوير هستيم. در اين كار، مروري بر روش‌ها، مجوعه دادگان و معيارهاي ارزيابي شرح ويدئو شده است.

نام دانشجو

محمدجواد پيرهادي

Name: محمدجواد پيرهادي
Author: محمدجواد پيرهادي

تاريخ ارائه

11/15/2023 12:00:00 AM

متن كامل

81078

پديد آورنده

محمدجواد پيرهادي

تاريخ ورود اطلاعات

1402/09/06

عنوان به انگليسي

A Survey on Video Description Methods, Datasets and eva‎luation Metrics

كليدواژه هاي فارسي

شرح ويدئو , تشخيص رخداد , يادگيري عميق چندوجهي

كليدواژه هاي لاتين

Video Description , Event Detection , Multi-modal Deep Learning

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=12776&Field=0&DTC=14