視頻編解碼學習之一：理論基礎

http://www.cnblogs.com/xkfz007/archive/2012/07/28/2613690.html

第1章介紹

1. 爲什麼要進行視頻壓縮？

未經壓縮的數字視頻的數據量巨大
存儲困難
- 一張DVD只能存儲幾秒鐘的未壓縮數字視頻。
傳輸困難
- 1兆的帶寬傳輸一秒的數字電視視頻需要大約4分鐘。

2. 爲什麼可以壓縮

去除冗餘信息
- 空間冗餘：圖像相鄰像素之間有較強的相關性
- 時間冗餘：視頻序列的相鄰圖像之間內容相似
- 編碼冗餘：不同像素值出現的概率不同
- 視覺冗餘：人的視覺系統對某些細節不敏感
- 知識冗餘：規律性的結構可由先驗知識和背景知識得到

3. 數據壓縮分類

無損壓縮（Lossless）
- 壓縮前解壓縮後圖像完全一致X=X'
- 壓縮比低(2:1~3:1)
- 例如：Winzip，JPEG-LS
有損壓縮（Lossy）
- 壓縮前解壓縮後圖像不一致X≠X'
- 壓縮比高(10:1~20:1)
- 利用人的視覺系統的特性
- 例如：MPEG-2，H.264/AVC，AVS

4. 編解碼器

編碼器（Encoder）
- 壓縮信號的設備或程序
解碼器（Decoder）
- 解壓縮信號的設備或程序
編解碼器(Codec)
- 編解碼器對

5. 壓縮系統的組成

(1) 編碼器中的關鍵技術

(2) 編解碼中的關鍵技術

6. 編解碼器實現

編解碼器的實現平臺：
- ASIC， FPGA
- 超大規模集成電路VLSI
- 數字信號處理器DSP
- 軟件
編解碼器產品：
- 機頂盒
- 數字電視
- 攝像機
- 監控器

7. 視頻編碼標準

編碼標準作用：

兼容：
- 不同廠家生產的編碼器壓縮的碼流能夠被不同廠家的解碼器解碼
高效：
- 標準編解碼器可以進行批量生產，節約成本。

主流的視頻編碼標準：

MPEG-2
MPEG-4 Simple Profile
H.264/AVC
AVS
VC-1

標準化組織：

ITU：International Telecommunications Union
- VECG：Video Coding Experts Group
ISO：International Standards Organization
- MPEG：Motion Picture Experts Group

8. 視頻傳輸

視頻傳輸：通過傳輸系統將壓縮的視頻碼流從編碼端傳輸到解碼端
傳輸系統：互聯網，地面無線廣播，衛星

9. 視頻傳輸面臨的問題

傳輸系統不可靠
- 帶寬限制
- 信號衰減
- 噪聲干擾
- 傳輸延遲
視頻傳輸出現的問題
- 不能解碼出正確的視頻
- 視頻播放延遲

10. 視頻傳輸差錯控制

差錯控制（Error Control）解決視頻傳輸過程中由於數據丟失或延遲導致的問題
差錯控制技術：
- 信道編碼差錯控制技術
- 編碼器差錯恢復
- 解碼器差錯隱藏

11. 視頻傳輸的QoS參數

數據包的端到端的延遲
帶寬：比特/秒
數據包的流失率
數據包的延遲時間的波動

第2章數字視頻

1.圖像與視頻

圖像：是人對視覺感知的物質再現。
三維自然場景的對象包括：深度，紋理和亮度信息
二維圖像：紋理和亮度信息

視頻：連續的圖像。
視頻由多幅圖像構成，包含對象的運動信息，又稱爲運動圖像。

2. 數字視頻

數字視頻：自然場景空間和時間的數字採樣表示。
- 幀率：幀/秒
- 解析度（Resolution）
- 空間採樣
- 時間採樣

3. 空間採樣

二維數字視頻圖像空間採樣

4. 數字視頻系統

採集
- 照相機，攝像機
處理
- 編解碼器，傳輸設備
顯示
- 顯示器

5. 人類視覺系統HVS

HVS
- 眼睛
- 神經
- 大腦

HVS特點：
- 對高頻信息不敏感
- 對高對比度更敏感
- 對亮度信息比色度信息更敏感
- 對運動的信息更敏感

6. 數字視頻系統的設計應該考慮HVS的特點：

丟棄高頻信息，只編碼低頻信息
提高邊緣信息的主觀質量
降低色度的解析度
對感興趣區域（Region of Interesting，ROI）進行特殊處理

7. RGB色彩空間

三原色：紅（R），綠（G），藍（B）。
任何顏色都可以通過按一定比例混合三原色產生。
RGB色度空間
- 由RGB三原色組成
- 廣泛用於BMP，TIFF，PPM等
- 每個色度成分通常用8bit表示[0,255]

8. YUV色彩空間

YUV色彩空間：
- Y：亮度分量
- UV：兩個色度分量
- YUV更好的反映HVS特點

9. RGB轉化到YUV空間

亮度分量Y與三原色有如下關係：

經過大量實驗後ITU-R給出了，，，

主流的編解碼標準的壓縮對象都是YUV圖像

10. YUV圖像分量採樣

YUV圖像可以根據HVS的特點，對色度分量下采樣，可以降低視頻數據量。
根據亮度和色度分量的採樣比率，YUV圖像通常有以下幾種格式：

11. 通用的YUV圖像格式

根據YUV圖像的亮度分辨率定義圖像格式

12. 幀和場圖像

一幀圖像包括兩場——頂場，底場

13. 逐行與隔行圖像

逐行圖像：一幀圖像的兩場在同一時間得到，t_top=t_bot。
隔行圖像：一幀圖像的兩場在不同時間得到，t_top≠t_bot。

14. 視頻質量評價

有損視頻壓縮使編解碼圖像不同，需要一種手段來評價解碼圖像的質量。
質量評價：
- 客觀質量評價
- 主觀質量評價
- 基於視覺的視頻質量客觀評價
客觀質量評價：通過數學方法測量圖像質量評價的方式。
優點：
- 可量化
- 測量結果可重複
- 測量簡單
缺點：
- 不完全符合人的主觀感知

15. 客觀評價的方法

常用的客觀評價方法：

16. 主觀評價方法

主觀質量評價：用人的主觀感知直接測量的方式。
優點：
- 符合人的主觀感知
缺點：
- 不容易量化
- 受不確定因素影響，測量結果一般不可重複
- 測量代價高

常用主觀評價方法

17. 基於視覺的視頻質量客觀評價方法

基於視覺的視頻質量客觀評價：將人的視覺特性用數學方法描述並用於視頻質量評價的方式。
結合了主觀質量評價和客觀質量評價兩方面優點。
常用方法：結構相似度（Structural SIMilarity，SSIM）方法。
將HVS的特徵用數學模型表達出來。
未來重要的研究方向

第3章信息論基礎

1. 通信系統的組成

信源：產生消息
信道：傳輸消息
信宿：接收消息

2. 基本概念

通信中對信息的表達分爲三個層次：信號，消息，信息。
- 信號：是信息的物理層表達，可測量，可描述，可顯示。如電信號，光信號。
- 消息：是信息的載體，以文字，語言，圖像等人類可以認知的形式表示。
- 信息：不確定的內容。

3. 信息熵

信息的特點

信息的測量

自信息量

條件信息量

4. 信息熵

5. 條件熵和聯合熵

6. 熵的性質

非負性：信源熵是非負值，即 H(X) >=0;
擴展性：信源熵X有M個符號，如果其中一個符號出現的概率趨於零，信源熵就等於剩餘M-1個符號的信源熵；
極值性（最大信息熵）：對於具有M個符號的信源，只有在所有符號等概率出現的情況下，信源熵達到最大值，即
可加性：
熵不增：條件熵不大於信息熵 H(X|Y) <= H(X)；
聯合熵不大於各信息熵的和，即H(XY) <= H(X) + H(Y)。

7. 互信息量

8. 互信息

物理意義：H(X)是X所含的信息，H(X|Y)是已知Y的條件下X還能帶來的信息量。那麼兩者之差就是由於知道Y使得X減少的信息量，也即由Y可以得到的關於X的信息量。

9. 各種熵的關係

11. 信源編碼

信源編碼：將消息符號轉變成信道可傳輸的信息。
兩個基本問題：
- 用儘可能少的信道傳輸符號來傳遞信源消息，提高傳輸效率；
- 減少由於信道傳輸符號的減少導致的失真。

12. 離散信源統計特性

13. 離散信源類型：簡單無記憶信源和馬爾可夫信源

14. 編碼分類

等長碼：在一組碼字集合C中的所有碼字c_m (m = 1,2, …,M)，其碼長都相同，則稱這組碼C爲等長碼。
變長碼：若碼字集合C中的所有碼字c_m (m = 1,2, …,M)，其碼長不都相同，稱碼C爲變長碼。

15. 平均碼長

16. 等長碼與變長碼比較

等長編碼將信源輸出符號序列的任意一種取值（概率可能不同）都編碼成相同長度的輸出碼字，沒有利用信源的統計特性；
變長編碼可以根據信源輸出符號序列各種取值的概率大小不同，將他們編碼成不同長度的輸出碼字，利用了信源的統計特性。因此又稱其爲熵編碼。

17. Huffman編碼

Huffman編碼：典型的變長編碼。
步驟：
- 將信源符號按概率從大到小的順序排列，假定p(x₁)≥ p(x₂)… ≥ p(x_n)
- 給兩個概率最小的信源符號p(x_n-₁)， p(x_n)各分配一個碼位"0"和"1"，將這兩個信源符號合併成一個新符號，並用這兩個最小的概率之和作爲新符號的概率，結果得到一個只包含(n-1)個信源符號的新信源。稱爲信源的第一次縮減信源，用S₁表表示。
- 將縮減信源S₁的符號仍按概率從大到小的順序排列，重複步驟2，得到只含(n-2)個符號的縮減信源S₂。
- 重複上述步驟，直至縮減信源只剩下兩個符號爲止，此時所剩兩個符號的概率之和必爲1。然後從最後一級縮減信源開始，依編碼路徑向前返回，就得到各信源符號所對應的碼字。

18. 信道編碼

信道編碼主要考慮如何增加信號的抗干擾能力，提高傳輸的可靠性，並且提高傳輸效率。
一般是採用冗餘編碼法，賦予信碼自身一定的糾錯和檢錯能力，使信道傳輸的差錯概率降到允許的範圍之內。

19. 信道類型

根據信道連續與否分類
- 離散信道
- 連續信道
- 半連續信道
根據信道是否有干擾分類
- 無干擾信道
- 有干擾信道
根據信道的統計特性分類
- 無記憶信道
- 有記憶信道
- 恆參信道
- 變參信道
- 對稱信道
- 非對稱信道

20. 信道容量

在信息論中，稱信道無差錯傳輸的最大信息速率爲信道容量。
仙農信道容量公式：
- 假設連續信道的加性高斯白噪聲功率爲N，信道帶寬爲B，信號功率爲S，則該信道的容量爲
- 由於噪聲功率N與信道帶寬B有關，則噪聲功率N=n₀B 。因此，仙農公式還可以表示爲

21. 香農信道容量公式的意義

在給定B和S/N的情況下，信道的極限傳輸能力爲C，而且此時能夠做到無差錯傳輸。如果信道的實際傳輸速率大於C 值，則無差錯傳輸在理論上就已不可能。因此，實際傳輸速率一般不能大於信道容量C ，除非允許存在一定的差錯率。
提高信噪比S/N（通過減小n₀或增大S），可提高信道容量C。特別是，若n₀->0，則C->∞ ，這意味着無干擾信道容量爲無窮大；
增加信道帶寬B，也可增加信道容量C，但做不到無限制地增加。這是因爲，如果 S、n₀一定，有
維持同樣大小的信道容量，可以通過調整信道的B及S/N來達到，即信道容量可以通過系統帶寬與信噪比的互換而保持不變。

22. 失真

失真：信源的消息經過編解碼後不能完全復原
在實際的信源和信道編碼中，消息的傳輸並不總是無失真的。
- 由於存儲和傳輸資源的限制
- 噪聲等因素的干擾

23. 率失真理論

仙農定義了信息率失真函數R(D)
- D是消息失真
- R是碼率
率失真定理：在允許一定失真度D的情況下，信源輸出的信息率可壓縮到R(D)。

24. 失真函數

失真函數：信源符號X={x₁, x₂, …..x_n}，經信道傳輸接收端符號Y={y₁, y₂….y_n}，對於每一對(x_i, y_j)指定一個非負函數 d(x_i, y_j)，稱d(x_i, y_j)爲單個符號的失真度或失真函數。對於連續信源連續信道的情況，常用d(x, y)表示。
常用失真函數：
平均失真度：