• شماره ركورد
    12776
  • عنوان
    مروري بر روش‌ها، مجموعه دادگان و معيار‌هاي ارزيابي شرح ويدئو
  • سال تحصيل
    1400
  • استاد راهنما
    دكتر سيد صالح اعتمادي
  • چکيده
    هدف از شرح ويدئو، درك محتواي تصويري موجود در يك ويدئو و شرح محتواي درك شده به صورت خودكار توسط زبان طبيعي است. اين مسئله دو زمينه مهم هوش مصنوعي يعني بينايي ماشين و پردازش زبان طبيعي را به يك ديگر متصل مي‌كند. براي درك محتواي يك ويدئو نياز به درك موجوديت‌هاي درون ويدئو، روابط آن‌ها با يكديگر و همچنين درك رخداد‌هاي درون آن است. نحوه شرح ويدئو به سه صورت مفروض است: 1) عنوان‌بندي ويدئو: شرح تمام يك ويدئو در قالب يك جمله با اين فرض كه يك ويدئو كوتاه معمولا شامل يك رخداد اصلي است. 2) روايت ويدئو: شرح تمام يك ويدئو (بلند‌تر) در قالب يك يا چند پاراگراف كه معمولا جزئيات بيش‌تري دارد و به آن داستان‌سرايي نيز گفته مي‌شود. 3) عنوان‌بندي متراكم ويدئو: تشخيص تمام رخداد‌هاي درون يك ويدئو و شرح هر رخداد توسط يك جمله كه رخداد‌ها مي‌توانند طول‌هاي مختلفي داشته و هم‌پوشاني نيز داشته باشند. در اين حالت برخلاف روش قبل جملات توليد شده داراي انسجام نيستند. كاربرد‌هاي زيادي نيز براي شرح ويدئو وجود دارد كه به عنوان مثال مي‌توان به تعامل انسان و ربات به عنوان يكي از مهم‌ترين اين كاربرد‌ها اشاره كرد. امروزه با پيشرفت روش‌هاي يادگيري عميق شاهد بهبود چشمگير نتايج در مقايسه با روش‌هاي سنتي در تمامي زمينه‌هاي هوش مصنوعي از جمله پردازش متن و تصوير هستيم. در اين كار، مروري بر روش‌ها، مجوعه دادگان و معيارهاي ارزيابي شرح ويدئو شده است.
  • نام دانشجو

    محمدجواد پيرهادي

  • تاريخ ارائه
    11/15/2023 12:00:00 AM
  • متن كامل
    81078
  • پديد آورنده

    محمدجواد پيرهادي

  • تاريخ ورود اطلاعات
    1402/09/06
  • عنوان به انگليسي
    A Survey on Video Description Methods, Datasets and eva‎luation Metrics
  • كليدواژه هاي فارسي
    شرح ويدئو , تشخيص رخداد , يادگيري عميق چندوجهي
  • كليدواژه هاي لاتين
    Video Description , Event Detection , Multi-modal Deep Learning