-
شماره ركورد
31306
-
پديد آورنده
محمدرضا زارع نژاد
-
عنوان
توصيف معنايي محتواي ويدئو مبتني بر مدل هاي بينايي-زباني
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
مهندسي برق- مخابرات سيستم
-
سال تحصيل
1403
-
تاريخ دفاع
27/06/1403
-
استاد راهنما
دكتر علي اصغر بهشتي شيرازي
-
استاد مشاور
ندارم
-
دانشكده
مهندسي برق
-
چكيده
تشخيص و انتقال محتواي ويدئو و مفاهيم اصلͬ آن از طريق تحليل جزئيات و رويدادها، ي ͷمسئله بنيادي اما چالش برانگيز در تفسير ويدئو است. علي رغم تمركز قوي بر كپشن گذاري ويدئويي، مدل هاي موجود اغلب بەطور كافي به موضوعات احساسي نمي پردازند يا احساسات را بەدرستي شناسايي نمي كنند كه اين امر منجر به نتايج نامطلوب در توليد كپشن مي شود. براي رفع اين محدوديت ها، اين پژوهش چارچوب جديدي با نام پردازش معنايي و كپشن نويسي ويدئويي با اطلاعات احساسي از طريق بازيابي و درك مداليته ها را پيشنهاد ميكند تا توليد كپشن هاي احساسي و معنايي معتبر را تقويت كند. با استفاده از اين ساختار نوآورانه، به درك مفاهيم چندوجهي و موضوعات احساسي از طريق بررسي ويژگي هاي ويدئو⁃متن مي پردازد. اين مدل جهت گيري كپشن هاي توصيفي را از طريق بخش مفهوم گرا و جامع تعيين مي كند و به ادراكي بر مبناي احساس و موضوع مي پردازد. با بهرەگيري از قابليت هاي بازيابي ويدئو به متن و ماهيت چندوجهي محتواي ويدئو، مدل به تخمين احتمالات احساسي كپشن هاي بدست آمده مي پردازد. در مرحله بعد، موضوع غالب ويدئو از طريق وزن دهي مناسب به بردارهاي ويژگي هاي صفتي درون سازي شده و استفاده از مفاهيم احساسي در سطح كلي و جزئي تعيين مي شود كه ارزيابي مفهومي ويدئو را تعريف مي كند. كپشن توليد شده مدل نتيجه رمزگشايي نهايي ويژگي هاي چندوجهي و بردارهاي ويژگي صفتي درون سازي شده است. علاوه بر اين، اين مدل با استفاده از دو تابع ضرر بهينەسازي مي شود تا اطلاعات احساسي را بكپارچه كند و خطاهاي پيش بيني را به حداقل برساند. آزمايش هاي گسترده بر روي مجموعه دادەهاي كپشن نويسي ويدئويي ⅯSVⅮ، EⅿViⅾⅭapو ⅯSR−VTTنشان مي دهند كه مدل بەطور قابل توجهي از روش هاي پيشرفته فعلͬ بهتر عمل ميͺند. ارزيابي هاي كمي و كيفي نشان مي دهند كه مدل بەطور دقيق قادر به دريافت و بيان احساسات و ويژگي هاي چندوجهي ويدئو است.
-
تاريخ ورود اطلاعات
1403/07/09
-
عنوان به انگليسي
semantic video representation with vision-language models
-
تاريخ بهره برداري
9/22/2025 12:00:00 AM
-
دانشجوي وارد كننده اطلاعات
محمدرضا زارع نژاد
-
چكيده به لاتين
Capturing and conveying a video’s meaning and critical concepts by analyzing the subtle details and events is a fundamental yet challenging task in video interpretation. Identifying
the dominant emotional tone in a video significantly enhances the perception of its atmosphere. Despite a strong emphasis on video captioning, existing models often need to adequately address emotional themes or accurately detect emotions, resulting in suboptimal captioning results. To address these limitations, this paper proposes a novel Semantic Processing
and Emotion-informed video-Captioning Through Retrieval and Understanding Modalities
(SPECTRUM) framework to empower the generation of emotionally and semantically credible captions. Leveraging our pioneering structure, SPECTRUM discerns multimodal semantics and emotional themes using Visual-Text Attribute Investigation (VTAI). It determines the
orientation of descriptive captions through a Holistic Concept-Oriented Theme (HCOT), expressing emotionally-informed and field-acquainted references. Exploiting video-to-text retrieval capabilities and the multifaceted nature of video content, VTAI estimates the emotional probabilities of candidate captions. Next, the dominant theme of the video is determined through an appropriate weighting of embedded attribute vectors and the application
of coarse- and fine-grained emotional concepts in HCOT, which defines the video’s contextual
alignment. The generated caption of the model results from the final decoding of multimodal
features and embedded attribute vectors. Furthermore, using two loss functions, SPECTRUM
is optimized to integrate emotional information and minimize prediction errors. Extensive experiments on the EmVidCap, MSVD, and MSR-VTT video captioning datasets demonstrate
that SPECTRUM significantly surpasses state-of-the-art methods. Quantitative and qualitative evaluations highlight SPECTRUM’s capability to capture and convey video emotions and
multimodal attributes accurately.
-
كليدواژه هاي فارسي
كپشن گذاري ويدئو , بررسي احساسات , توصيف معنايي محتواي ويدئو
-
كليدواژه هاي لاتين
Video Captioning , Emotion Detection , semantic video representation
-
Author
Mohammadreza Zarenejad
-
SuperVisor
Dr. AliAsghar Beheshti Shirazi
-
لينک به اين مدرک :