شماره ركورد
34259
پديد آورنده
داود فاني
عنوان
فشرده سازي توزيع شده ويدئو براساس نمونه برداري غيريكنواخت و تخمين حركت هندسي
مقطع تحصيلي
دكتري تخصصي
رشته تحصيلي
مهندسي برق - مخابرات - سيستم
سال تحصيل
1395
تاريخ دفاع
1404/09/22
استاد راهنما
علي اصغر بهشتي شيرازي
استاد مشاور
محمد قنبري
دانشكده
مهندسي برق
چكيده
با رشد روزافزون كاربردهاي ويدئوي ديجيتال و ضرورت ذخيره سازي و انتقال ويدئو در اكثر اين كاربردها، اجراي الگوريتم هاي فشرده سازي پيش از ذخيره سازي يا انتقال، اجتناب ناپذير است. از طرفي، با معرفي روزافزون و چشمگير دستگاه هاي قابل حمل با حافظه و توان پردازشي محدود و ظهور كاربردهاي ويدئويي متناسب با آنها ازجمله سامانه هاي نظارت ويدئويي با حسگرهاي كم توان تصويري، ويدئوكنفرانس از طريق تلفن همراه، فيلم برداري پزشكي با محدوديت در ابعاد و توان پردازشي حسگرهاي تصويري مانند كپسول آندوسكپي و بسياري ديگر از كاربردهاي اينترنت اشيا ويدئويي، هزينه محاسباتي كدگذار نيز به علت ضرورت استقرار وسيع حسگرهاي تصويري و يا محدوديت در ابعاد كل سامانه تصويربرداري، اهميت بالايي پيدا كرده است. بر همين اساس، فشرده ساز توزيع شده ويدئو متناسب با اين كاربردها ارائه شده است تا اكثر بار محاسباتي فشرده سازي را به سمت كدبردار انتقال دهد. حسگري فشرده به دليل استفاده بسيار اندك از منابع براي نمونه برداري و صرف زمان ناچيز، توجه فزايندهاي را در فشردهساز توزيع شده ويدئو به خود جلب كرده است. اما، بهينه نبودن كيفيت بازسازي، يكنواخت نبودن كيفيت فريم هاي متوالي و عدم حفظ جزئيات بافتي و ساختاري فريم هاي ويدئو، بهعنوان چالش باقي مانده اند. براي حل اين چالش ها، در اين پژوهش دو رويكرد فشرده سازي توزيع شده ويدئو با استفاده از حسگري فشرده طراحي و پياده سازي شده است. در رويكرد اول، يك روش نمونه برداري غيريكنواخت حسگري فشرده در حوزه مكان (پيكسل) با پيچيدگي محاسباتي ناچيز و يك الگوريتم چندمرحله اي در سمت كدبردار براي بازسازي فريم هاي ويدئو ارائه شده است. مدلهاي تخصيص غيريكنواخت نرخ اندازه گيري، بدون استفاده از كانال بازخورد و در سطح گروه تصاوير پيشنهاد شدهاند تا از نوسانات شديد و نامطلوب كيفيت جلوگيري شود. الگوريتم چندمرحله اي بازسازي نيز كاهش كيفيتي كه ممكن است به دليل تخصيص غيريكنواخت نرخ اندازه گيري به گروه هاي تصاوير متوالي ايجاد شود را جبران مي كند. روش پيشنهادي در رويكرد اول نسبت به حالتهاي نرخ اندازه گيري ثابت يعني Constant MR (0.50, 0.10 | 0.30/3)، Constant MR (0.45, 0.15 | 0.35/3) و Constant MR (0.40, 0.20 | 0.40/3)، در گروه تصاوير 2 فريمي با ميانگين اختلاف PSNR (dB 050/0‒، dB 330/0، dB 990/0) و ميانگين اختلاف MAG PSNR (081/2، 532/0، 412/0‒) و در گروه تصاوير 4 فريمي با ميانگين اختلاف PSNR (dB 190/0، dB 430/0، dB 770/0) و ميانگين اختلاف MAG PSNR (377/1، 710/0، 128/0) روي تمام دنبالههاي ويدئويي آزمايش شده عملكرد بهتري دارد. در رويكرد دوم، براي بازسازي فريم هاي ويدئويي نمونه برداري شده با نرخ اندازه گيري ثابت، روش جديد و كارآمد پيش بيني چندفرضيه اي هندسي پيشنهاد شده است. با توجه به ناديده گرفتن تغيير شكلهاي نامنظم ناشي از حركت در ويدئو در تقريباً تمام روشهاي بازسازي موجود، كيفيت ويدئوي بازسازيشده مطلوب نيست. اين تغيير شكل هاي نامنظم، با ابداع فرضيه هاي نامنظم در مجموعه فرضيه هاي هندسي در روش پيشنهادي دوم مورد توجه قرار مي گيرند. روش پيشنهادي در رويكرد دوم نسبت به روشهاي پيشرفته پيشبيني چندفرضيه اي مبتني بر تكرار شاملMH Video ، RRS-2 وSRS با ميانگين ΔPSNR (dB 98/3، dB 53/4، dB 71/3) و ميانگين ΔSSIM (132/0، 149/0، 134/0) و همچنين از روشهاي پيشرفته حسگري فشرده ويدئو مبتني بر شبكه هاي عصبي عميق شامل VCSNet-2 و LRR-VCSNet با ميانگين ΔPSNR (dB 10/0، dB 45/0) و ميانگين ΔSSIM (068/0، 032/0) بهتر عمل ميكند.
تاريخ ورود اطلاعات
1404/10/02
عنوان به انگليسي
Distributed Video Coding based on Non-uniform Sampling and Geometrical Motion Estimation and Compensation
تاريخ بهره برداري
12/21/2025 12:00:00 AM
دانشجوي وارد كننده اطلاعات
داود فاني
چكيده به لاتين
With the rapid growth of digital video applications and the inherent requirement for video storage and transmission, the use of video compression algorithms prior to storage or delivery has become inevitable. Meanwhile, the widespread emergence of portable and resource-constrained devices, along with corresponding video applications—such as low-power video surveillance systems, mobile video conferencing, medical imaging with severe size and processing limitations (e.g., capsule endoscopy), and various video-based internet of things (IoT) scenarios—has significantly increased the importance of reducing encoder computational complexity. To address this issue, distributed video coding (DVC) has been introduced to shift the majority of the computational burden from the encoder to the decoder. In this context, compressive sensing (CS) has attracted growing attention due to its minimal sampling requirements and low acquisition complexity. However, challenges such as suboptimal reconstruction quality, temporal quality fluctuations among consecutive frames, and insufficient preservation of structural and textural details still remain. To overcome these challenges, this study proposes and implements two CS-based DVC approaches. In the first approach, a low-complexity non-uniform spatial-domain CS sampling strategy is introduced at the encoder, along with a multi-step reconstruction algorithm at the decoder. Non-uniform measurement rate (MR) allocation models are designed at the group of pictures (GOP) level without relying on a feedback channel, effectively mitigating severe quality fluctuations. The proposed multi-step reconstruction compensates for potential quality degradation caused by non-uniform measurement rate allocation across consecutive GOPs. Experimental results demonstrate that the proposed method in the first approach outperforms constant measurement rate modes, namely Constant MR (0.50, 0.10 | 0.30/3), Constant MR (0.45, 0.15 | 0.35/3) and Constant MR (0.40, 0.20 | 0.40/3), by average PSNR of (‒0.050 dB, 0.330 dB, 0.990 dB) and average MAG of PSNR (2.081, 0.532, ‒0.412) for GOP size of 2 frames as well as GOP size of 4 frames by average PSNR of (0.190 dB, 0.430 dB, 0.770 dB) and average MAG of PSNR (1.337, 0.710, 0.128) across all examined video sequences. In the second approach, a novel and efficient geometrical multi-hypothesis (MH) prediction method is proposed for reconstructing video frames’ measurements at a constant measurement rate. Unlike most existing reconstruction methods that neglect irregular motion-induced deformations, the proposed approach incorporates irregular hypotheses into the geometrical hypothesis set, leading to improved reconstruction quality. Comparative results show that the proposed method in the second approach achieves superior performance over state-of-the-art iterative MH prediction-based methods including MH Video, RRS-2, and SRS by average ΔPSNR (3.98 dB, 4.53 dB, 3.71 dB) and average ΔSSIM (0.132, 0.149, 0.134) as well as the representative deep neural network (DNN)-based video CS reconstruction techniques including VCSNet-2 and LRR-VCSNet by average ΔPSNR (0.10 dB, 0.45 dB) and average ΔSSIM (0.068, 0.032).
كليدواژه هاي فارسي
فشرده سازي ويدئو , فشرده سازي توزيع شده ويدئو , اينترنت اشيا ويدئويي , نمونه برداري غيريكنواخت , تخمين حركت هندسي
كليدواژه هاي لاتين
Video Coding , Distributed Video Coding , Internet of Video Things (IoVT) , Non-uniform Sampling , Geometrical Motion Estimation
Author
Davoud Fani
SuperVisor
Aliasghar Beheshti-Shirazi