شماره ركورد
12776
عنوان
مروري بر روشها، مجموعه دادگان و معيارهاي ارزيابي شرح ويدئو
سال تحصيل
1400
استاد راهنما
دكتر سيد صالح اعتمادي
چکيده
هدف از شرح ويدئو، درك محتواي تصويري موجود در يك ويدئو و شرح محتواي درك شده به صورت خودكار توسط زبان طبيعي است. اين مسئله دو زمينه مهم هوش مصنوعي يعني بينايي ماشين و پردازش زبان طبيعي را به يك ديگر متصل ميكند. براي درك محتواي يك ويدئو نياز به درك موجوديتهاي درون ويدئو، روابط آنها با يكديگر و همچنين درك رخدادهاي درون آن است. نحوه شرح ويدئو به سه صورت مفروض است: 1) عنوانبندي ويدئو: شرح تمام يك ويدئو در قالب يك جمله با اين فرض كه يك ويدئو كوتاه معمولا شامل يك رخداد اصلي است. 2) روايت ويدئو: شرح تمام يك ويدئو (بلندتر) در قالب يك يا چند پاراگراف كه معمولا جزئيات بيشتري دارد و به آن داستانسرايي نيز گفته ميشود. 3) عنوانبندي متراكم ويدئو: تشخيص تمام رخدادهاي درون يك ويدئو و شرح هر رخداد توسط يك جمله كه رخدادها ميتوانند طولهاي مختلفي داشته و همپوشاني نيز داشته باشند. در اين حالت برخلاف روش قبل جملات توليد شده داراي انسجام نيستند. كاربردهاي زيادي نيز براي شرح ويدئو وجود دارد كه به عنوان مثال ميتوان به تعامل انسان و ربات به عنوان يكي از مهمترين اين كاربردها اشاره كرد. امروزه با پيشرفت روشهاي يادگيري عميق شاهد بهبود چشمگير نتايج در مقايسه با روشهاي سنتي در تمامي زمينههاي هوش مصنوعي از جمله پردازش متن و تصوير هستيم. در اين كار، مروري بر روشها، مجوعه دادگان و معيارهاي ارزيابي شرح ويدئو شده است.
نام دانشجو
محمدجواد پيرهادي
تاريخ ارائه
11/15/2023 12:00:00 AM
متن كامل
81078
پديد آورنده
محمدجواد پيرهادي
تاريخ ورود اطلاعات
1402/09/06
عنوان به انگليسي
A Survey on Video Description Methods, Datasets and evaluation Metrics
كليدواژه هاي فارسي
شرح ويدئو , تشخيص رخداد , يادگيري عميق چندوجهي
كليدواژه هاي لاتين
Video Description , Event Detection , Multi-modal Deep Learning