-
شماره ركورد
12776
-
عنوان
مروري بر روشها، مجموعه دادگان و معيارهاي ارزيابي شرح ويدئو
-
سال تحصيل
1400
-
استاد راهنما
دكتر سيد صالح اعتمادي
-
چکيده
هدف از شرح ويدئو، درك محتواي تصويري موجود در يك ويدئو و شرح محتواي درك شده به صورت خودكار توسط زبان طبيعي است. اين مسئله دو زمينه مهم هوش مصنوعي يعني بينايي ماشين و پردازش زبان طبيعي را به يك ديگر متصل ميكند. براي درك محتواي يك ويدئو نياز به درك موجوديتهاي درون ويدئو، روابط آنها با يكديگر و همچنين درك رخدادهاي درون آن است. نحوه شرح ويدئو به سه صورت مفروض است: 1) عنوانبندي ويدئو: شرح تمام يك ويدئو در قالب يك جمله با اين فرض كه يك ويدئو كوتاه معمولا شامل يك رخداد اصلي است. 2) روايت ويدئو: شرح تمام يك ويدئو (بلندتر) در قالب يك يا چند پاراگراف كه معمولا جزئيات بيشتري دارد و به آن داستانسرايي نيز گفته ميشود. 3) عنوانبندي متراكم ويدئو: تشخيص تمام رخدادهاي درون يك ويدئو و شرح هر رخداد توسط يك جمله كه رخدادها ميتوانند طولهاي مختلفي داشته و همپوشاني نيز داشته باشند. در اين حالت برخلاف روش قبل جملات توليد شده داراي انسجام نيستند. كاربردهاي زيادي نيز براي شرح ويدئو وجود دارد كه به عنوان مثال ميتوان به تعامل انسان و ربات به عنوان يكي از مهمترين اين كاربردها اشاره كرد. امروزه با پيشرفت روشهاي يادگيري عميق شاهد بهبود چشمگير نتايج در مقايسه با روشهاي سنتي در تمامي زمينههاي هوش مصنوعي از جمله پردازش متن و تصوير هستيم. در اين كار، مروري بر روشها، مجوعه دادگان و معيارهاي ارزيابي شرح ويدئو شده است.
-
نام دانشجو
محمدجواد پيرهادي
-
تاريخ ارائه
11/15/2023 12:00:00 AM
-
متن كامل
81078
-
پديد آورنده
محمدجواد پيرهادي
-
تاريخ ورود اطلاعات
1402/09/06
-
عنوان به انگليسي
A Survey on Video Description Methods, Datasets and evaluation Metrics
-
كليدواژه هاي فارسي
شرح ويدئو , تشخيص رخداد , يادگيري عميق چندوجهي
-
كليدواژه هاي لاتين
Video Description , Event Detection , Multi-modal Deep Learning
-
لينک به اين مدرک :