-
شماره ركورد
33343
-
پديد آورنده
حميد آزادگان
-
عنوان
بهبود كيفيت ويدئو فشردهشده با استفاده از يادگيري عميق
-
مقطع تحصيلي
دكتري تخصصي (PhD)
-
رشته تحصيلي
مهندسي برق- مخابرات ـ سيستم
-
سال تحصيل
1395
-
تاريخ دفاع
1404/1/20
-
استاد راهنما
علي اصغر بهشتي شيرازي
-
استاد مشاور
-
-
دانشكده
پرديس دانشگاهي - دانشكده مهندسي برق
-
چكيده
با گسترش روزافزون محيطهاي اشتراكگذاري داده و شبكههاي پخش سراسري محتوا، حفظ همزمان كيفيت ويدئوي اشتراكي و كاهش نرخ بيت ارسالي امري ضروري است. استانداردهاي فشردهسازي ويدئو، توسط متخصصان و دانشمندان اين حوزه در حال پيشرفت هستند. براي فشردهسازي با نرخ بيتهاي پايين، استانداردهاي جديد، بهبود زيادي در كيفيت ويدئو نداشتهاند و بيشتر بر بالاتر بردن رزولوشن و سرعت كدگذاري تمركز كردهاند. از اين رو، هدف اصلي اين رساله، بهبود كيفيت قابهاي ويدئو با استفاده از شبكههاي عصبي عميق است. بر همين اساس، در اين تحقيق با مطالعه و شناخت بخشهاي مختلف استانداردهاي فشردهسازي ويدئو، شامل H.264, HEVC و VVC، بهعنوان استاندارد و تلفيق آن با خواص و امكانات شبكه عصبي عميق، سه رويكرد براي بهبود كيفيت ويدئو تشريح ميشود. رويكرد اول مبتني بر تركيب قابهاي مياني و دروني با ارائه مدلي سبك براي پيشبيني سيگنال خطاي پسماند قاب است. اين مدل از يك شبكه كانولوشنال سهبعدي (3D-CNN) با معماري ساده استفاده ميكند كه سه قاب متوالي فشردهشده (Ft, Ft+1, Ft+2) را به عنوان ورودي دريافت و خطاي پسماند (CE) قاب مياني را پيشبيني ميكند. شبكه با استفاده از لايههاي كانولوشن دوبعدي، ويژگيهاي مكاني و زماني را استخراج كرده و با بهينهساز Adam و تابع هزينه MSE آموزش ميبيند. اين معماري سبك، قادر است با جمعآوري اطلاعات همبستگي ميانقابي، پيوستگي توالي ويدئو را حفظ كند. رويكرد دوم بر بهبود كيفيت چندقابي ويدئو با استفاده از اطلاعات همبستگي ميانقابي به كمك شبكههاي عميق جمعشونده متمركز است. در اين روش، پنج قاب متوالي فشردهشده (Ft-2 تا Ft+2) به عنوان ورودي به يك شبكه 3D-CNN با ساختار جمعشونده تغذيه ميشوند. اين شبكه با ادغام لايههاي كانولوشن سهبعدي و استفاده از فيلترهاي 3×3×3، ويژگيهاي زماني-مكاني را استخراج و خطاي پسماند را براي پنج قاب به صورت همزمان پيشبيني ميكند. رويكرد سوم با طراحي SF-Net، يك مدل شبكه عصبي سهبعدي قيفي مربعي براي درونيابي قاب ويدئويي ارائه ميدهد. اين معماري مبتني بر كدگذار-كدگشا، از دو قاب ورودي (Ft-1 و Ft+1) براي پيشبيني قاب مياني (Ft) استفاده ميكند. در بخش كدگذار، با اعمال لايههاي ترنسپوز كانولوشن سهبعدي و افزايش تدريجي عمق، ويژگيهاي سلسلهمراتبي استخراج ميشوند. در كدگشا، با ادغام ويژگيهاي سطوح مختلف و استفاده از فرانمونهبرداري، ابعاد مكاني بازسازي شده و قاب خروجي با تركيب تلفات تركيبي (L1، VGG و Gram) بهينه ميشود. اين ساختار امكان پردازش همزمان حركات كوچك و بزرگ را با حفظ جزئيات فراهم ميكند. نتايج تجربي نشان ميدهد رويكرد اول بهبود 0.34 تا 0.21dB در معيار PSNR را براي مقادير مختلف QP در ويدئوهاي HEVC نشان ميدهد. همچنين در رويكرد دوم بهطور متوسط 12.4%, 9.9% و 5% كاهش نرخ بيت (BD-rate) را در پيكربنديهاي LDP، LDB و RA استاندارد HEVC ايجاد ميكند. رويكرد سوم با SF-Net به مقادير PSNR=32.32 dB و SSIM=0.9030 در مجموعه داده SNU-FILM دست يافته است. اين نتايج حاكي از برتري مدلهاي پيشنهادي نسبت به روشهاي موجود از نظر معيارهاي عيني و كيفي است.
-
تاريخ ورود اطلاعات
1404/02/17
-
عنوان به انگليسي
Improve Compressed Video Quality Using Deep Learning
-
تاريخ بهره برداري
4/9/2026 12:00:00 AM
-
دانشجوي وارد كننده اطلاعات
حميد آزادگان
-
چكيده به لاتين
As data-sharing environments and global content distribution networks expand, it is essential to maintain the quality of shared videos while reducing bit rates. Researchers and specialists in the field are continuously advancing video compression standards. New standards have not significantly improved video quality in low-bitrate compression scenarios, focusing instead on enhancing resolution and encoding speed. The primary objective of this thesis is to improve video frame quality using deep neural networks. In this research, we present three approaches that combine standard video compression techniques, like H.264, HEVC, and VVC, with deep neural network capabilities to enhance video quality. The first approach combines inter-frame and intra-frame information using a lightweight model to predict residual error signals in video frames. This model employs a simplified 2D convolutional neural network (2D-CNN) architecture, which takes three consecutive compressed frames (Ft, Ft+1, Ft+2) as input to predict the Compressed Error (CE) for the middle frame (Ft+1). The network extracts spatial and temporal features using 2D convolutional layers and is trained with the Adam optimizer, utilizing Mean Squared Error (MSE) as the loss function. This lightweight architecture helps maintain continuity in the video sequence by capturing inter-frame correlation information. The second approach aims to enhance multi-frame video quality by leveraging inter-frame correlation through deep residual additive networks. In this method, five consecutive compressed frames (Ft-2 to Ft+2) are fed into a 3D-CNN that features a residual additive structure. By integrating 3D convolutional layers with 3×3×3 filters, the network extracts spatiotemporal features while simultaneously Predicting Compressed Errors (PCE) for all five frames. The third approach introduces SF-Net, a 3D square-funnel-shaped encoder-decoder model designed for video frame interpolation. The encoder extracts hierarchical features using 3D transpose convolution layers, gradually increasing in depth from two input frames (Ft-1 and Ft+1) to predict the intermediate frame (Ft). The decoder then merges multi-level features and performs up-sampling to reconstruct the spatial dimensions, optimized through a combined loss function that includes L1, VGG, and Gram losses. This structure effectively handles both small and large motions while preserving intricate details. Experimental results indicate that the first approach achieves PSNR (Peak Signal-to-Noise Ratio) improvements ranging from 0.21 to 0.34 dB across various QP (Quantization Parameter) values for HEVC (High Efficiency Video Coding) videos. The second approach results in average bit-rate reductions (BD-rate) of 12.4%, 9.9%, and 5% for the HEVC configurations LDP (Low Delay P), LDB (Low Delay B), and RA (Random Access), respectively. The third approach, which uses SF-Net, achieves a PSNR of 32.32 dB and an SSIM (Structural Similarity Index Measure) of 0.9030 on the SNU-FILM dataset. These results demonstrate the superiority of the proposed models over existing methods in both objective and subjective quality metrics.
-
كليدواژه هاي فارسي
بهبود كيفيت , كدينگ ويدئو , پسماند , يادگيري عميق , درونيابي فريم
-
كليدواژه هاي لاتين
quality improvement , Video Coding , Residual , Deep Learning , Frame Interpolation
-
Author
Hamid Azadegan
-
SuperVisor
Ali Asgar Beheshti Shirazi
-
لينک به اين مدرک :