基於IP的H.264關鍵技術

一、引言

H.264 是 ITU-T最新的視頻編碼標準，被稱作ISO/IEC14496-10或MPEG-4 AVC，是由運動圖像專家組(MPEG)和ITU的視頻編碼專家組共同開發的新產品。H.264分兩層結構，包括視頻編碼層和網絡適配層。視頻編碼層處理的是塊、宏塊和片的數據，並儘量做到與網絡層獨立，這是視頻編碼的核心，其中包含許多實現錯誤恢復的工具；網絡適配層處理的是片結構以上的數據，使 H.264能夠在基於RTP/UDP/IP、H.323/M、MPEG-2傳輸和H.320協議的網絡中使用。

二、 IP網絡對視頻壓縮的限制

　　1. H.264的應用場合

　　在討論基於IP的H.264之前，有必要先闡述一下H.264與IP網絡有關的應用場合及其對傳輸和編解碼器的要求。下面介紹對話應用、下載服務和流媒體應用三種場合。

　　對話應用，比如像視頻電話和視頻會議，有嚴格的時延限制，要求端到端時延小於1s，最好小於100ms。編解碼器的參數能實時調整，錯誤恢復機制要根據實際網絡變化而改變。編解碼的複雜度不能很高，比如雙向預測的模式就不能被採用。

　　下載服務，可使用可靠的傳輸協議如FTP和HTTP將數據全部傳輸。由於這種應用的非實時性，編碼器可以通過優化進行高效編碼，而且對時延和錯誤恢復機制沒有要求。

　　流媒體服務應用，對時延要求介於上面兩者之間，初始化時延是10s以內。與實時編碼相比對時延要求降低，編碼器可以進行優化實現高效編碼(比如雙向預測)。然而通常流媒體服務使用不可靠的傳輸協議，所以編碼時要進行差錯控制並進行信道糾錯編碼。

　　本文主要討論對話應用和流媒體應用，這兩種應用基於IP網絡。IP網絡又可分爲三種類型：不可控IP網絡(如Internet)、可控IP網絡(廣域網)和無線IP網絡(如3G網絡)。這三種IP網絡有不同的最大傳輸單元尺寸(MTUsize)、比特出錯概率和TCP使用標記。最大傳輸單元尺寸是網絡層最大的分組長度，H.264編碼時要使片的長度小於MTU尺寸，這樣可避免在網絡層再進行一次數據的分割。兩個IP節點之間的MTU尺寸是動態變化的，通常假定有線IP網絡的MTU尺寸是1.5千字節，無線網絡的MTU尺寸是100字節。可見要適用於無線網絡的H.264必須採用數據分割技術使得片的長度小於MTU尺寸。TCP傳輸控制協議能夠解決網絡擁塞引起的分組丟失問題，而在無線網絡中，分組丟失是由於鏈路層錯誤引起的，TCP並非很好的解決辦法，要採用差錯控制協議。

　　2. H.264使用的協議環境

　　對話應用和流媒體應用使用同一協議組，下面進行討論。

　　網絡層協議：使用IP(網際協議)。每個IP分組單獨從發方出發，經過一系列的路由器到達收方。IP將大於MTU尺寸的分組進行數據分割、重組。每個分組的傳輸時間都有所不同。IP頭20個字節由校驗碼來保證，但數據沒有保護。IP分組最大值爲64千字節，但由於MTU尺寸的限制，一般沒有這麼大。

　　傳輸層協議：主要有兩個協議，TCP和UDP。TCP提供面向字節的可靠傳輸服務，以重傳和超時等機制作爲差錯控制的基礎。由於對時延的不可預測，並不適用於實時通信傳輸。UDP提供不可靠的數據報傳輸業務。UDP頭包含的校驗數(8字節)可以發現和去掉含有比特錯誤的分組。UDP允許分組傳輸過程中出現丟失、複製、改序等。使用UDP協議時，高層必須使用錯誤恢復協議。

　　應用層傳輸協議：使用RTP(實時傳輸協議)。該協議和IP/UDP結合使用，是面向會話的協議。每個RTP分組包含RTP頭標，載荷頭標(可選)和載荷本身。RTP頭標的內容見圖1，基本選項佔用12字節，標記位標記有同一時間戳的一組分組的結束。RTP協議使發送方將數據分爲大小合理的分組，並將解碼方觀察到的網絡特徵反饋給發送方，使發送方可以動態調整比特率和抗誤碼機制。RTP分組和RTP載荷規範在第四部分討論。

應用層控制協議：有H.245協議、SIP和SDP，或RTSP。這些協議可以實現流媒體的控制，收發方的協商和控制動態會話層。

三、H.264的錯誤恢復工具

　　錯誤恢復的工具隨着視頻壓縮編碼技術的提高在不斷改進。舊的標準(H.261、H263、MPEG-2的第二部分)中，使用片和宏塊組的劃分、幀內編碼宏塊、幀內編碼片和幀內編碼圖像來防止錯誤的擴散。之後改進的標準(H.263+、MPEG-4)中，使用多幀參考和數據分割技術來恢復錯誤。H.264 標準在以前的基礎上提出了三種關鍵技術：(1)參數集合，(2) 靈活的宏塊次序(FMO)，(3)冗餘片(RS)來進行錯誤的恢復。

　　1. 幀內編碼

　　H.264中幀內編碼的技術和以前標準一樣，值得注意的是：

　　(1)H.264中的幀內預測編碼宏塊的參考宏塊可以是幀間編碼宏塊，幀內預測宏塊並不像H.263中的幀內編碼一樣，而採用預測的幀內編碼比非預測的幀內編碼有更好的編碼效率，但減少了幀內編碼的重同步性能，可以通過設置限制幀內預測標記來恢復這一性能。

　　(2)只包含幀內宏塊的片有兩種，一種是幀內片(Islice)，一種是立即刷新片(IDRslice)，立即刷新片必存在於立即刷新圖像(IDRpicture)中。與短期參考圖像相比，立即刷新圖像有更強壯的重同步性能。

　　在無線IP網絡環境下，爲了提高幀內圖像的重同步性能，要採用率失真優化編碼和設置限制幀內預測標記。

　　2. 圖像的分割

　　H.264支持一幅圖像劃分成片，片中宏塊的數目是任意的。在非FMO模式下，片中的宏塊次序是同光柵掃描順序，FMO模式下比較特殊。片的劃分可以適配不同的MTU尺寸，也可以用來交織分組打包。

　　3. 參考圖像選擇

　　參考圖像數據選擇，不論是基於宏塊、基於片，還是基於幀，都是錯誤恢復的有效工具。對於有反饋的系統，編碼器獲得傳輸中丟失圖像區域的信息後，參考圖像可以選擇解碼已經正確接收的圖像對應的原圖像區域作參考。在沒有反饋的系統中，將會使用冗餘的編碼來增加錯誤恢復性能。

　　4. 數據的劃分

　　通常情況下，一個宏塊的數據是存放在一起而組成片的，數據劃分使得一個片中的宏塊數據重新組合，把宏塊語義相關的數據組成一個劃分，由劃分來組裝片。在 H.264中有三種不同的數據劃分。 (1)頭信息劃分：包含片中宏塊的類型，量化參數和運動矢量，是片中最重要的信息。 (2)幀內信息劃分：包含幀內CBPs和幀內係數，幀內信息可以阻止錯誤的蔓延。 (3)幀間信息劃分：包含幀間CBPs和幀間係數，通常比前兩個劃分要大得多。

　　幀內信息劃分結合頭信息解出幀內宏塊，幀間信息劃分結合頭信息解出幀間宏塊。幀間信息劃分的重要性最低，對重同步沒有貢獻。當使用數據劃分時，片中的數據根據其類型被保存到不同的緩存，同時片的大小也要調整，使得片中最大的劃分小於MTU尺寸。

　　解碼端若獲得所有的劃分，就可以完整重構片；解碼端若發現幀內信息或幀間信息劃分丟失，可用的頭信息仍然有很好的錯誤恢復性能。這是因爲宏塊類型和宏塊的運動矢量含有宏塊的基本特徵。

　　5. 參數集的使用

　　序列的參數集(SPS)包括了一個圖像序列的所有信息，圖像的參數集(PPS)包括了一個圖像所有片的信息。多個不同的序列和圖像參數集經排序存放在解碼器。編碼器參考序列參數集設置圖像參數集，依據每一個已編碼片的片頭的存儲地址選擇合適的圖像參數集來使用。對序列的參數和圖像的參數進行重點保護才能很好地增強H.264錯誤恢復性能。

　　在差錯信道中使用參數集的關鍵是保證參數集及時、可靠地到達解碼端。例如，在實時信道中，編碼器用可靠控制協議及早將他們以帶外傳輸的方式發送，使控制協議能夠在引用新參數的第一個片到達之前把它們發給解碼器；另外一個辦法就是使用應用層保護，重發多個備份文件，確保至少有一個備份數據到達解碼端；第三個辦法就是在編解碼器的硬件中固化參數集設置。

　　6. 靈活的宏塊次序(FMO)

　　靈活的宏塊次序是H.264的一大特色，通過設置宏塊次序映射表(MBAmap)來任意地指配宏塊到不同的片組，FMO模式打亂了原宏塊順序，降低了編碼效率，增加了時延，但增強了抗誤碼性能。FMO模式劃分圖像的模式各種各樣，重要的有棋盤模式、矩形模式等。當然FMO模式也可以使一幀中的宏塊順序分割，使得分割後的片的大小小於無線網絡的MTU尺寸。經過FMO模式分割後的圖像數據分開進行傳輸，以棋盤模式爲例，當一個片組的數據丟失時可用另一個片組的數據(包含丟失宏塊的相鄰宏塊信息)進行錯誤掩蓋。實驗數據顯示，當丟失率爲(視頻會議應用時)10%時，經錯誤掩蓋後的圖像仍然有很高的質量。

　　7. 冗餘片方法

前邊提到了當使用無反饋的系統時，就不能使用參考幀選擇的方法來進行錯誤恢復，應該在編碼時增加冗餘的片來增強抗誤碼性能。要注意的是這些冗餘片的編碼參數與非冗餘片的編碼參數不同，也就是用一個模糊的冗餘片附加在一個清晰的片之後。在解碼時先解清晰的片，如果其可用就丟棄冗餘片；否則使用冗餘模糊片來重構圖像。

四、H.264中實時傳輸協議(RTP)

　　1. RTP載荷規範

　　在第二部分已經對H.264的網絡協議環境作了闡述，這裏要詳細討論RTP的載荷規範和抗誤碼性能。RTP通過發送冗餘信息來減少接收端的丟包率，會增加時延，與冗餘片不同的是它增加的冗餘信息是個別重點信息的備份，適合於應用層的非等重保護。下邊闡述與多媒體傳輸有關的3個規範。

　　(1)分組複製多次重發，發送端對最重要的比特信息分組進行復制重發，使得保證接收端能至少正確接收到一次，同時接收端要丟棄已經正確接收的分組的多餘備份。

　　(2)基於分組的前向糾錯，對被保護的分組進行異或運算，將運算結果作爲冗餘信息發送到接收方。由於時延，不用於對話型應用，可用於流媒體。

　　(3)音頻冗餘編碼，可保護包括視頻在內的任何數據流。每個分組由頭標、載荷以及前一分組的載荷組成，H.264中可與數據分割一起使用。

　　2. H.264 NAL單元的概念

　　H.264 NAL單元對編碼數據進行打包，NAL單元由1字節的頭，3個定長的字段和一個字節數不定的編碼段組成。

　　頭標的語法：NALU類型(5bit)、重要性指示位(2bit)、禁止位(1bit)。

　　NALU類型：1～12由H.264使用，24～31由H.264以外的應用使用。

　　重要性指示：標誌該NAL單元用於重建時的重要性，值越大，越重要。

　　禁止位：網絡發現NAL單元有比特錯誤時可設置該比特爲1，以便接收方丟掉該單元。

　　3. 分組打包的規則

　　(1)額外開銷要少，使MTU尺寸在100～64k字節範圍都可以；

　　(2)不用對分組內的數據解碼就可以判別該分組的重要性；

　　(3)載荷規範應當保證不用解碼就可識別由於其他的比特丟失而造成的分組不可解碼；

　　(4)支持將NALU分割成多個RTP分組；

　　(5)支持將多個NALU彙集在一個RTP分組中。

　　RTP的頭標可以是NALU的頭標，並可以實現以上的打包規則。

　　4. 簡單打包

　　一個RTP分組裏放入一個NALU，將NALU(包括同時作爲載荷頭標的NALU頭)放入RTP的載荷中，設置RTP頭標值。爲了避免IP層對大分組的再一次分割，片分組的大小一般都要小於MTU尺寸。由於包傳送的路徑不同，解碼端要重新對片分組排序，RTP包含的次序信息可以用來解決這一問題。

　　5. NALU分割

　　對於預先已經編碼的內容，NALU可能大於MTU尺寸的限制。雖然IP層的分割可以使數據塊小於64千字節，但無法在應用層實現保護，從而降低了非等重保護方案的效果。由於UDP數據包小於64千字節，而且一個片的長度對某些應用場合來說太小，所以應用層打包是RTP打包方案的一部分。

　　新的討論方案(IETF)應當符合以下特徵：

　　(1)NALU的分塊以按RTP次序號升序傳輸；

　　(2)能夠標記第一個和最後一個NALU分塊；

　　(3)可以檢測丟失的分塊。

　　6. NALU合併

　　一些NALU如SEI、參數集等非常小，將它們合併在一起有利於減少頭標開銷。已有兩種集合分組：

　　(1)單一時間集合分組(STAP)，按時間戳進行組合；

(2) 多時間集合分組(MTAP)，不同時間戳也可以組合。

五、結束語

　　本文重點講述了在IP網絡的限制條件下H.264進行錯誤恢復的幾種有力工具，但在不同的IP網絡中要組合使用各種工具才能實現高效率編碼和傳輸。因爲目前無線網絡對MTU尺寸和時延的限制，所以錯誤恢復工具可以結合使用圖像的分割、數據的劃分和RTP分組技術，避免使用冗餘信息和反饋來提高錯誤恢復性能；另外高效率的FMO編碼模式可以大大提高編碼的抗分組丟失性能。

wfqxx

發佈了24 篇原創文章 · 獲贊 1 · 訪問量 11萬+

私信關注

基於IP的H.264關鍵技術

H.264視頻編碼傳輸的QoS特性分析（三）

總結：名字空間

實現視頻長時間播放而顯示器不會關閉或者屏保出現的簡單方法

vim常用指令使用指南

H.264視頻編碼傳輸的QoS特性分析（二）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結