-
شماره ركورد
31153
-
پديد آورنده
محمدجواد پيرهادي
-
عنوان
استفاده از ويدئوهاي فشرده جهت بهبود كيفيت شرح متراكم ويدئو
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
مهندسي كامپيوتر - هوش مصنوعي و رباتيكز
-
سال تحصيل
1400
-
تاريخ دفاع
1403/6/10
-
استاد راهنما
دكتر سيدصالح اعتمادي
-
استاد مشاور
-
-
دانشكده
مهندسي كامپيوتر
-
چكيده
هدف وظيفه شرح متراكم ويدئو، آشكارسازي تمام رخدادهاي درون يك ويدئو و توصيف هر كدام از رخدادها توسط زبان طبيعي است. ويدئو ورودي در بيشتر وظايفي كه با پردازش ويدئو همراه هستند، كوتاه فرض ميشود كه فقط شامل يك رخداد اصلي هستند. برخلاف اين وظايف، در شرح متراكم ويدئو، با ويدئوهاي بلند و بريده نشده مواجه هستيم كه شامل بيش از يك رخداد است. به همين دليل، سرعت پردازش ويدئوها يك جنبه بسيار حياتي از سيستم هم در زمان آموزش و هم در زمان استنتاج ميباشد. همه كارهاي گذشته در اين حوزه از فريمهاي RGB براي پردازش ويدئو استفاده ميكنند. در اين پژوهش، ما از ويدئوهاي فشرده براي كدگذاري ويدئوها با طول دلخواه استفاده ميكنيم. چالش SoccerNet يك چالش با تمركز بر روي ويدئوهاي فوتبال است كه در وظيفه شرح متراكم ويدئو از آن، هر ويدئو يك نيمه كامل از يك بازي فوتبال است.آزمايشهاي ما روي اين چالش، نشاندهنده افزايش چشمگير سرعت و كاهش قابل توجه حافظه گرافيكي استفاده شده است. در حالي كه افت نتايج به دست آمده، قابل چشم پوشي است. همچنين در اين كار از متن چندزبانه ويدئوها نيز استفاده شده است كه موثر بودهاند. قسمت كدگذار مدل ارائه شده نسبت به همتاي RGB خود، با احتساب زمان موردنياز براي پيشپردازش اضافه، در زمان آموزش 4/3 برابر سريعتر است و 5/1 برابر حافظه گرافيكي كمتري استفاده ميكند. همچنين در زمان استنتاج، 3/2 برابر سريعتر است و 7/8 برابر حافظه گرافيكي كمتري استفاده ميكند. اين درحالي است كه معيار METEOR (معيار اصلي ردهبندي اين چالش) تنها 0/52 درصد كاهش داشته است (20/39 در مقابل 19/87) كه قابل چشمپوشي ميباشد.
-
تاريخ ورود اطلاعات
1403/06/19
-
عنوان به انگليسي
Using Compressed Videos to Improve Dense Video Captioning Quality
-
تاريخ بهره برداري
1/1/1900 12:00:00 AM
-
دانشجوي وارد كننده اطلاعات
محمدجواد پيرهادي
-
چكيده به لاتين
The dense video captioning task aims to detect all events occurring in a video and describe each event using natural language. Unlike most other video processing tasks, where it is typically assumed that videos contain only a single main event, this task deals with long, untrimmed videos. Consequently, the speed of processing videos in dense video captioning is a critical aspect of the system. To the best of our knowledge, all published work on this task uses RGB frames to encode input videos. In this work, we introduce the use of compressed videos for the first time in this task. Our experiments on the SoccerNet challenge demonstrate significant improvements in both processing speed and GPU memory footprint while achieving competitive results. Additionally, we leverage multilingual transcripts, which is effective. The encoder in our proposed method, taking the additional preprocessing time into account, achieves approximately 4.3 higher speed and 5.1 lower GPU memory usage during training, and 3.2 higher speed and 7.8times lower GPU memory usage during inference, compared to its RGB-based counterpart, while the METEOR metric, the main metric of the challenge, is only 0.52 percent lower (20.39 vs 19.87), which is negligible.
-
كليدواژه هاي فارسي
شرح ويدئو , آشكارسازي رخداد , يادگيري عميق چندوجهي
-
كليدواژه هاي لاتين
Video Captioning , Event Detection , Multi-modal Deep Learning
-
Author
Mohammad Javad Pirhadi
-
SuperVisor
Dr, Seyyed Sauleh Eetemadi
-
لينک به اين مدرک :