圖像視頻壓縮：深度學習，有一套

原創

2021-03-23 21:30

摘要：得益於深度神經網絡提取信源特徵的能力，深度學習技術在信源壓縮編碼領域取得了比傳統方法更

本文分享自華爲雲社區《基於深度學習的圖像視頻壓縮編碼》，原文作者：羅鵬。

得益於深度神經網絡提取信源特徵的能力，深度學習技術在信源壓縮編碼領域取得了比傳統方法更優異的效果。

基於深度學習的圖像壓縮編碼

自編碼器

Ballé1 提出了一種基於變分自編碼器的端到端圖像壓縮模型，採用結合邊信息（side information）的超先驗的方案。
模型如下圖所示。

Q 表示量化；AE 和 AD 分別表示算術編碼和解碼；卷積參數表示爲層\times×長\times×寬/下采用或上採樣，\uparrow↑表示上採樣，\downarrow↓表示下采樣。

Minnen2 提出了一種超先驗結合自迴歸模型的方案。

循環神經網絡（Recurrent Neural Network, RNN）

Google3 團隊提出一種基於長短期記憶（long short-term memory, LTSM）的神經網絡架構對圖像進行可變壓縮率的編碼方法。
模型如下圖所示。

上圖是基於卷積核逆卷積的殘差編碼器，將上下層各第二和第三的卷積/逆卷積模塊換成 LTSM 模塊即爲所提出的模型。

Google4 團隊在前面工作的基礎上引入了 GRU 和 ResNet 模塊，並採用熵編碼進一步提升了壓縮率。

模型如下圖所示。

生成對抗網絡（Generative Adversarial Network, GAN）

Agustsson5 提出了一種基於 GAN 的圖像壓縮方案，可選擇地對部分/全部圖像生成對應語義標籤；解碼時，正常壓縮的圖像部分正常解碼，無圖像部分由 GAN 網絡生成。
模型如下圖所示。

EE 爲編碼器；qq 爲量化器；GG 爲解碼和生成器；DD 爲對抗器。

基於深度學習的視頻壓縮編碼

基於深度學習的視頻編碼分爲兩種：

採用深度學習替代傳統視頻編碼中部分模塊
端到端採用深度學習編碼壓縮

部分方案

採樣深度神經網絡可以替代傳統視頻編碼中的模塊包括：幀內/幀間預測、變換、上下采樣、環路濾波、熵編碼等6。

端到端方案

Lu7 提出了一個端到端採用深度學習進行視頻編碼壓縮的方案；其採用卷積光流估計來進行運動估計，並使用兩個自編碼器對光流信息和殘差信息進行編碼壓縮。
編碼框架如下圖所示：

採用一個卷積網絡模塊進行光流估計8，以作爲運動估計。
採用自編碼器對光流信息進行壓縮，自編碼器網絡如下圖所示：

結合上一幀圖像和光流信息，獲得運動補償圖像。運動補償網絡如下圖所示：

將原圖像與補償圖像進行差計算獲得殘差，殘差也使用自編碼器壓縮。

Rippel9 提出了一種端到端基於機器學習（包括深度學習）的視頻壓縮方案；採用多幀參考的光流估計做運動估計，採用自編碼器對光流信息和殘差編碼壓縮，採用機器學習做碼率控制。

Reference

[2018 ICLR]
Variational image compression with a scale hyperprior
[2018 NIPS]
Joint Autoregressive and Hierarchical Priors for Learned Image Compression
[2016 ICLR]
Variable Rate Image Compression with Recurrent Neural Networks
[2017 CVPR]
Full Resolution Image Compression with Recurrent Neural Networks
[2019 ICCV]
Generative Adversarial Networks for Extreme Learned Image Compression
[2019 MM]
Deep Learning-Based Video Coding: A Review and A Case Study
[2019 CVPR]
DVC: An End-to-end Deep Video Compression Framework
[2017 CVPR]
Optical Flow Estimation using a Spatial Pyramid Network
[2019 ICCV]
Learned Video Compression

點擊關注，第一時間瞭解華爲雲新鮮技術~

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

圖像視頻壓縮：深度學習，有一套

基於深度學習的圖像壓縮編碼

自編碼器

循環神經網絡（Recurrent Neural Network, RNN）

生成對抗網絡（Generative Adversarial Network, GAN）

基於深度學習的視頻壓縮編碼

部分方案

端到端方案

Reference

如何在低代碼平臺中引用 JavaScript ？

探究職業發展的關鍵：能力模型解讀

高效率使用windows

如何使用 JavaScript 獲取當前頁面幀率 FPS

工程款拖欠，農民工怎麼了？就得一直忍着委屈求全嗎？

HarmonyOS 實現下拉刷新，上拉加載更多

語音信號處理中的“窗函數”

智能決策新時代：可視化大屏是否能夠超越傳統白板？

解密Prompt系列28. LLM Agent之金融領域摸索：FinMem & FinAgent

分享幾個.NET開源的AI和LLM相關項目框架

NPM設置國內鏡像

llama.cpp備忘

Smart-doc賦能JMeter性能壓測實踐

界面控件DevExtreme v23.1、v23.2盤點 - 增強的TypeScript(Angular、React、Vue)

MFC擴展庫BCGControlBar Pro v34.1 - 可視化設計器、主題新升級

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結