حميد آزادگان

عنوان

بهبود كيفيت ويدئو فشرده‌شده با استفاده از يادگيري عميق

مقطع تحصيلي

دكتري تخصصي (PhD)

رشته تحصيلي

مهندسي برق- مخابرات ـ سيستم

سال تحصيل

1395

تاريخ دفاع

1404/1/20

استاد راهنما

علي اصغر بهشتي شيرازي

استاد مشاور

دانشكده

پرديس دانشگاهي - دانشكده مهندسي برق

چكيده

با گسترش روزافزون محيط‌هاي اشتراك‌گذاري داده و شبكه‌هاي پخش سراسري محتوا، حفظ همزمان كيفيت ويدئوي اشتراكي و كاهش نرخ بيت ارسالي امري ضروري است. استانداردهاي فشرده‌سازي ويدئو، توسط متخصصان و دانشمندان اين حوزه در حال پيشرفت هستند. براي فشرده‌سازي با نرخ بيت‌هاي پايين، استانداردهاي جديد، بهبود زيادي در كيفيت ويدئو نداشته‌اند و بيشتر بر بالاتر بردن رزولوشن و سرعت كدگذاري تمركز كرده‌اند. از اين رو، هدف اصلي اين رساله، بهبود كيفيت قاب‌هاي ويدئو با استفاده از شبكه‌هاي عصبي عميق است. بر همين اساس، در اين تحقيق با مطالعه و شناخت بخش‌هاي مختلف استانداردهاي فشرده‌سازي ويدئو، شامل H.264, HEVC و VVC، به‌عنوان استاندارد و تلفيق آن با خواص و امكانات شبكه عصبي عميق، سه رويكرد براي بهبود كيفيت ويدئو تشريح مي‌شود. رويكرد اول مبتني بر تركيب قاب‌هاي مياني و دروني با ارائه مدلي سبك براي پيش‌بيني سيگنال خطاي پسماند قاب است. اين مدل از يك شبكه كانولوشنال سه‌بعدي (3D-CNN) با معماري ساده استفاده مي‌كند كه سه قاب متوالي فشرده‌شده (Ft, Ft+1, Ft+2) را به عنوان ورودي دريافت و خطاي پسماند (CE) قاب مياني را پيش‌بيني مي‌كند. شبكه با استفاده از لايه‌هاي كانولوشن دو‌بعدي، ويژگي‌هاي مكاني و زماني را استخراج كرده و با بهينه‌ساز Adam و تابع هزينه MSE آموزش مي‌بيند. اين معماري سبك، قادر است با جمع‌آوري اطلاعات همبستگي ميان‌قابي، پيوستگي توالي ويدئو را حفظ كند. رويكرد دوم بر بهبود كيفيت چندقابي ويدئو با استفاده از اطلاعات همبستگي ميان‌قابي به كمك شبكه‌هاي عميق جمع‌شونده متمركز است. در اين روش، پنج قاب متوالي فشرده‌شده (Ft-2 تا Ft+2) به عنوان ورودي به يك شبكه 3D-CNN با ساختار جمع‌شونده تغذيه مي‌شوند. اين شبكه با ادغام لايه‌هاي كانولوشن سه‌بعدي و استفاده از فيلترهاي 3×3×3، ويژگي‌هاي زماني-مكاني را استخراج و خطاي پسماند را براي پنج قاب به صورت همزمان پيش‌بيني مي‌كند. رويكرد سوم با طراحي SF-Net، يك مدل شبكه عصبي سه‌بعدي قيفي مربعي براي درون‌يابي قاب ويدئويي ارائه مي‌دهد. اين معماري مبتني بر كدگذار-كدگشا، از دو قاب ورودي (Ft-1 و Ft+1) براي پيش‌بيني قاب مياني (Ft) استفاده مي‌كند. در بخش كدگذار، با اعمال لايه‌هاي ترنسپوز كانولوشن سه‌بعدي و افزايش تدريجي عمق، ويژگي‌هاي سلسله‌مراتبي استخراج مي‌شوند. در كدگشا، با ادغام ويژگي‌هاي سطوح مختلف و استفاده از فرانمونه‌برداري، ابعاد مكاني بازسازي شده و قاب خروجي با تركيب تلفات تركيبي (L1، VGG و Gram) بهينه مي‌شود. اين ساختار امكان پردازش همزمان حركات كوچك و بزرگ را با حفظ جزئيات فراهم مي‌كند. نتايج تجربي نشان مي‌دهد رويكرد اول بهبود 0.34 تا 0.21dB در معيار PSNR را براي مقادير مختلف QP در ويدئوهاي HEVC نشان مي‌دهد. همچنين در رويكرد دوم به‌طور متوسط 12.4%, 9.9% و 5% كاهش نرخ بيت (BD-rate) را در پيكربندي‌هاي LDP، LDB و RA استاندارد HEVC ايجاد مي‌كند. رويكرد سوم با SF-Net به مقادير PSNR=32.32 dB و SSIM=0.9030 در مجموعه داده SNU-FILM دست يافته است. اين نتايج حاكي از برتري مدل‌هاي پيشنهادي نسبت به روش‌هاي موجود از نظر معيارهاي عيني و كيفي است.

تاريخ ورود اطلاعات

1404/02/17

عنوان به انگليسي

Improve Compressed Video Quality Using Deep Learning

تاريخ بهره برداري

4/9/2026 12:00:00 AM

دانشجوي وارد كننده اطلاعات

حميد آزادگان

Name: حميد آزادگان
Author: حميد آزادگان

چكيده به لاتين

As data-sharing environments and global content distribution networks expand, it is essential to maintain the quality of shared videos while reducing bit rates. Researchers and specialists in the field are continuously advancing video compression standards. New standards have not significantly improved video quality in low-bitrate compression scenarios, focusing instead on enhancing resolution and encoding speed. The primary objective of this thesis is to improve video frame quality using deep neural networks. In this research, we present three approaches that combine standard video compression techniques, like H.264, HEVC, and VVC, with deep neural network capabilities to enhance video quality. The first approach combines inter-frame and intra-frame information using a lightweight model to predict residual error signals in video frames. This model employs a simplified 2D convolutional neural network (2D-CNN) architecture, which takes three consecutive compressed frames (Ft, Ft+1, Ft+2) as input to predict the Compressed Error (CE) for the middle frame (Ft+1). The network extracts spatial and temporal features using 2D convolutional layers and is trained with the Adam optimizer, utilizing Mean Squared Error (MSE) as the loss function. This lightweight architecture helps maintain continuity in the video sequence by capturing inter-frame correlation information. The second approach aims to enhance multi-frame video quality by leveraging inter-frame correlation through deep residual additive networks. In this method, five consecutive compressed frames (Ft-2 to Ft+2) are fed into a 3D-CNN that features a residual additive structure. By integrating 3D convolutional layers with 3×3×3 filters, the network extracts spatiotemporal features while simultaneously Predicting Compressed Errors (PCE) for all five frames. The third approach introduces SF-Net, a 3D square-funnel-shaped encoder-decoder model designed for video frame interpolation. The encoder extracts hierarchical features using 3D transpose convolution layers, gradually increasing in depth from two input frames (Ft-1 and Ft+1) to predict the intermediate frame (Ft). The decoder then merges multi-level features and performs up-sampling to reconstruct the spatial dimensions, optimized through a combined loss function that includes L1, VGG, and Gram losses. This structure effectively handles both small and large motions while preserving intricate details. Experimental results indicate that the first approach achieves PSNR (Peak Signal-to-Noise Ratio) improvements ranging from 0.21 to 0.34 dB across various QP (Quantization Parameter) values for HEVC (High Efficiency Video Coding) videos. The second approach results in average bit-rate reductions (BD-rate) of 12.4%, 9.9%, and 5% for the HEVC configurations LDP (Low Delay P), LDB (Low Delay B), and RA (Random Access), respectively. The third approach, which uses SF-Net, achieves a PSNR of 32.32 dB and an SSIM (Structural Similarity Index Measure) of 0.9030 on the SNU-FILM dataset. These results demonstrate the superiority of the proposed models over existing methods in both objective and subjective quality metrics.

كليدواژه هاي فارسي

بهبود كيفيت , كدينگ ويدئو , پسماند , يادگيري عميق , درون‌يابي فريم

كليدواژه هاي لاتين

quality improvement , Video Coding , Residual , Deep Learning , Frame Interpolation

Author

Hamid Azadegan

SuperVisor

Ali Asgar Beheshti Shirazi

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=33343&Field=0&DTC=6