三、視頻格式

      格式是什麼？
      我們前面已經知道了什麼是視頻，以及視頻是怎樣產生，又是怎樣被我們看到的。那什麼叫格式呢？其實格式也很簡單，格式(Format)指就是視頻的種類，不同的視頻類型就叫不同的視頻格式。如果也要來個口號的話，就是“格式就是種類”。
      我們前面知道CCD經過掃描，獲得了視頻畫面，那所謂的“不同的視頻類型”又是怎麼產生的呢？好，我們下面就來看看同樣是CCD產生的畫面，怎麼就變出“不同類型”的。

①攝像機的組成
下邊是一臺攝像機，我們按功能區域把它給拆開，得到四個部分：鏡頭、CCD、編碼、記錄。鏡頭不用說了。CCD我們也說過了，它通過掃描獲得畫面。編碼(Encoding)，或者叫編碼處理器，就是把畫面變成信號編碼。記錄，其實就是個錄像機，把畫面編碼寫進磁帶、硬盤或者存儲卡里。

怎麼樣，攝像機結構很簡單吧。你一定猜到了，導致產生不同視頻類型的部分就是編碼部分。不同的編碼處理器，就產生不同的編碼，而這些不同編碼，就是形成了不同的視頻格式。那可不可以這樣說：如果換一個編碼處理器，那就能產生另一種視頻格式了？哈哈，還就是這樣。你裝一個DV編碼器，你的攝像機就是DV機，你裝一個DVCAM編碼器，你的機器就是DVCAM。當然，小攝像機的編碼部分是不可更換的，在有的廣播級攝像機上就可以，它們後面的編碼記錄部分是可更換的，裝上Beta就是Beta機，裝上DVCAM就是DVCAM機。換一個編碼處理器，那就怎麼樣，攝像機結構很簡單吧。你一定猜到了，導致產生不同視頻類型的部分就是編碼部分。不同的編碼處理器，就產生不同的編碼，而這些不同編碼，就是形成了不同的視頻格式。那可不可以這樣說：如果換一個編碼處理器，那就能產生另一種視頻格式了？哈哈，還就是這樣。你裝一個DV編碼器，你的攝像機就是DV機，你裝一個DVCAM編碼器，你的機器就是DVCAM。當然，小攝像機的編碼部分是不可更換的，在有的廣播級攝像機上就可以，它們後面的編碼記錄部分是可更換的，裝上Beta就是Beta機，裝上DVCAM就是DVCAM機。

②採樣
       既然我們知道了，編碼器是產生視頻格式的關鍵，那我們就來看看視頻格式到底是怎麼生產出來的。
      看下圖，這是攝像機各部分對應的視頻圖像的處理流程。我們看到鏡頭和CCD部分把拍攝的畫面變成了RGB像素（我們用4個像素來舉例）。然後CCD把生成的RGB像素髮送給編碼部分。
      哇塞，編碼部分果然有很多事情要做。首先，它把RGB轉換成YUV，YUV我們前面已經介紹過了，複習一下，Y是亮度分量，U和V是色度分量。然後編碼器進行對YUV進行採樣，生成碼流，然後進行壓縮。最後送給記錄部分，寫進磁帶裏。
      編碼部分的工作實際上就是轉換成YUV、對YUV進行採樣、壓縮，3個工作。
     你一定會覺得奇怪，除了RGB轉換成YUV，像素信息好像也沒什麼變化嘛，採樣也沒有改什麼，頂多壓縮一下就寫進磁帶了。是啊，這張圖似乎不太能說明什麼問題，我們看下頁那張。

       看下圖。注意編碼處理的部分，轉換YUV和上面那張圖一樣，但採樣部分就變了。經過採樣後，Y分量都還在，但幾個U分量和V分量不見了，具體就是U2、U4、V1、V3不見了。去哪裏了？很抱歉，扔掉了。什麼！不要啦？是的，不要了。
       爲什麼要把幾個分量扔掉，難道不需要嗎？其實不是不需要，只是我們的磁帶裝不下那麼多信息，於是就在採樣的過程中，把一些色度信息剔除掉，從而把整體信息容量減少，這樣可使傳輸和處理都相對容易些。扔掉了色度信息，色彩不就失真了嗎？是的，失真是必然的，但如果能控制在可以接受且不易辨認的範圍內就沒有問題。可是爲什麼不扔掉幾個Y呢？因爲Y作爲亮度分量承載的是圖像信息，簡單地講，它代表的是形狀，如果形狀信息扔了，圖像就會變形；而色彩信息則沒那麼嚴重，即便全扔了還能看黑白電視，所以要犧牲只能犧牲色彩。可到時播放的時候，電視機仍然是需要RGB信息啊，你把一部分色彩分量扔了，到時你拿什麼轉換回RGB給電視機？這個問題不着急，現在我們纔剛開始編碼呢，到後面解碼的時候自有辦法。
       仔細看一下采樣後的4個像素，Y都在有4個，U剩2個，V剩2個。我們就把這樣的採樣叫做4:2:2採樣，意思就是“Y比U比V”的比例。你可以回頭看前面那張圖，知道怎麼叫了吧，對了，那就是傳說中的4:4:4採樣。 4:4:4採樣就是什麼東西都沒扔，因此是最保真的，當然，需要的信息存儲空間也是最大的。

       怎麼樣，這個所謂的採樣很容易理解吧。因爲採樣扔的都是色度信息，所以也被稱作“色度採樣”或“色彩採樣”。色度採樣是視頻格式中的重要部分，在每個視頻格式的參數中必然有該格式所使用的採樣，而且都是“Y：U：V”的寫法。採樣大都以4個像素作爲一個採樣單位，而且Y都是不扔的，所以基本都是“4：X：X”這樣的形式。
      注意，這個“色度採樣”和前面的“CCD採樣率”是不一樣的。色度採樣是對色彩的處理，而CCD採樣率是“拾取”CCD上的圖像信息。
      好，我們來看4:1:1採樣。如圖，經採樣後，4個像素只剩下了1個U分量和1個V分量，因此就叫4:1:1。呵，夠狠的，色度信息一下被扔掉了3/4。是啊，NTSC制式的DV就是這種採樣。那我們PAL制的DV據說是4:2:0採樣，是不是比他們的N制的強呢？我們就接着看4:2:0採樣，一會兒就知道答案了。

4:2:0採樣比前面三種複雜點，但也不難理解。看圖，4:2:0採樣按2排共8個像素作爲1個採樣單位。我們知道採樣的關鍵就是怎麼扔色度信息。先看第1排，U分量扔掉2個，V分量全扔；再看第2排，U分量全扔，V分量扔掉2個。扔完之後，我們單看第1排，可以叫它4:2:0；單看第2排，可以叫它4:0:2；如果我們兩排一起看，可以叫它8:2:2，對吧。爲了和其他的採樣形式在名稱上統一，這種採樣就用第1排的4:2:0來代表了。因此，也容易造成誤解，從字面看彷彿V分量都扔光了。
這就是我們PAL制DV採用的色度採樣，它和4:1:1一樣，都扔掉了3/4的色度信息，因此沒有哪個更好，很遺憾，難兄難弟而已。從色度採樣我就能知道，爲什麼我們DV的色彩比不了電視臺的大攝像機，色彩都採成這樣了，能“出彩”嗎。

③ 壓縮
     編碼器完成色度採樣之後，形成的編碼對於磁帶而言依然太大了。有沒有搞錯？都採成這樣了還大啊！沒辦法，視頻就這樣。採樣完的1幀DV畫面(720x576)有約600KB大小，1秒15MB，1分鐘將近1GB（一張DVD容量4.7GB）；而一盤60分鐘的DV磁帶容量才13GB，不壓縮往哪放啊。如圖，採樣後的視頻碼流被送進一個“榨汁機”裏進行壓縮，被榨成“脫水蔬菜”，這樣就好裝進“罐頭”裏了。
      針對不同的“罐頭”尺寸和“蔬菜”種類，“榨汁機”的種類和“壓榨力度”也不一樣。有些罐頭容量比較大，榨汁的力度就可以小點，榨出的蔬菜還帶點水分；如果罐頭比較小，而蔬菜又比較多，那榨出來就是“菜乾”了，就像方便麪裏那種。 ^_^
      所謂壓縮，就是通過某種數據運算將畫面中一些“冗餘的”部分去除，在保證畫面質量的同時降低數據量。雖然理論上存在無損壓縮，但無損壓縮的數據量跟不壓縮相差無幾。因此在實際應用中，我們使用的壓縮都是有損壓縮，意思就是，畫面的質量是一定會下降的，只是下降的幅度或多或少而已。

從“榨汁方法”來講，視頻壓縮分兩種：一種叫幀內壓縮(Intraframe Compression)，另一種叫幀間壓縮(Interframe Compression)。幀內壓縮就是每幀自己壓自己的，跟前面和後面的幀都沒有關係。幀間壓縮就是根據某一幀前面和後面的幀進行壓縮，如下圖所示，如果在連續幾幀中，不變化的畫面部分將作爲“沒用的”部分被去掉，只留下那些“有用的”部分。

     壓縮方式是視頻格式中的第三個重要部分（前面兩個是CCD掃描方式和色度採樣）。使用什麼樣的壓縮方式，將直接影響視頻格式的質量。在分析壓縮前，我們先介紹幾個名詞：
   ①I幀(Intra-frame)，讀作“挨針”。這個詞在關於視頻壓縮的文章中經常出現，顯得很深奧的樣子，其實，所謂I幀就是“關鍵幀”，意思就是這幀很關鍵。爲什麼關鍵呢？因爲這幀裏包含了進行壓縮所需要的全部信息。比如上面“幀間壓縮”的第一個畫面，就是一個I幀。
   ②GOP(Group of Pictures)，有人翻譯作“圖片羣”或“圖片組”，我們直接讀“居歐劈”即可。GOP指的就是一組連續的幀，比如6幀GOP就是連續6幀畫面，15幀GOP就是連續15幀畫面。很容易理解哈。

   ③ 短GOP(Short GOP)，指只有一幀的GOP，而且這幀是I幀（“挨針”）。比如上面圖中“幀內壓縮”的每個畫面都是一個短GOP，即每幀都是I幀。短GOP的提法比較少用，一般都是直接說I幀。
   ④ 長GOP(Long GOP)，超過一幀的GOP，比如6幀GOP，15幀GOP。長GOP習慣寫作LGOP。通常來講，如果提到GOP指的都是LGOP。
   ⑤B幀 (Bi-direction frame) 和P幀 (Predicted frame)，B幀和P幀都是沒有完整畫面信息的幀，它們只在幀間壓縮中才會存在。比如上面圖中“幀間壓縮”的第二個畫面。

好了，現在可以開講壓縮了。首先是幀內壓縮。幀內壓縮就是以幀爲單位進行壓縮，每一幀都是獨立作業，幀之間不互相影響，因此幀內壓縮在很大程度上就相當於圖片壓縮，每一幀就是一張圖片。比如最常見的壓縮方式M-JPEG，就是JPEG圖片壓縮方式在視頻壓縮上的應用。由於每幀是獨立壓縮，且每幀都是I幀，因此幀內壓縮也被稱爲“I幀壓縮”。DV格式使用的就是I幀壓縮。

相對於幀內壓縮而言，幀間壓縮就複雜一些。首先，幀間壓縮不是以幀爲單位，而是以LGOP爲單位。意思就是說，幀間壓縮不是一幀一幀地壓，而是一組一組地壓。如圖，這是一個典型的“15幀LGOP幀間壓縮”。15幀作爲一個LGOP，以一個I幀領頭，I幀保留了後面14幀中的“沒用的”的信息；然後後面的B幀和P幀把“沒用的”內容扔掉，只留下“有用的”，於是B幀和P幀就能變得很小；從而在壓縮率上就能夠獲得比幀內壓縮更高的壓縮率。由於幀間壓縮都是以LGOP爲單位進行壓縮，因此又被稱爲“LGOP壓縮”。HDV格式使用的“MPEG-2壓縮”就是一種LGOP壓縮，索尼Z1使用的是“15幀LGOP壓縮”，JVC HD100使用的是“6幀LGOP壓縮”。還有AVCHD的“MPEG-4壓縮”和現在流行的“H.264壓縮”都是LGOP壓縮。

I幀壓縮（幀內）和LGOP壓縮（幀間）的出發點是不一樣。I幀壓縮是根據每幀的“畫面內容”進行壓縮，由於每幀獨立，無論拍攝的是運動鏡頭還是固定鏡頭，對壓縮率並沒有影響。LGOP壓縮是根據“幀與幀之間的關係”進行壓縮，如果是靜止畫面，I幀後面的那些B幀和P幀幾乎什麼信息都可以不留；如果是運動畫面， B幀和P幀只需要保留那些變化的即可。如果用一句話來區分這兩種壓縮方式，可以說：“I幀壓縮是靜態壓縮，LGOP壓縮是動態壓縮”。從算法理論上講，這兩種壓縮方式並沒有誰優誰劣，只是方式不用而已。但從壓縮率上講，LGOP壓縮的壓縮率就比I幀壓縮要高很多。

如圖，I幀壓縮後的4幀畫面的容量大約可以裝得下LGOP壓縮後的15幀畫面。這就是爲什麼HDV畫面可以裝進DV磁帶裏的原因，壓得跟DV一樣小了，當然就可以裝進去了。也正因爲這樣，LGOP壓縮在視頻傳輸領域被廣泛應用，數字電視網信號、DVD、HD DVD、藍光DVD(Blue-ray disc)、以及常見的網絡流媒體（WMV、DivX、MP4……）都是使用LGOP壓縮。

但是，即使是同一種壓縮方式裏，也有不同的壓縮率和壓縮質量，比如同是MPEG-2壓縮，DVD的壓縮率就比HDV要高很多，但質量就比不了HDV；你可以理解成“榨汁力度”不同，DVD是“濃縮型”，HDV是“原汁型”。
至於說裝“菜乾”的“罐頭”是磁帶、硬盤、光盤、還是存儲卡，並不重要，這些都只是存儲介質而已，就像“罐頭”是鐵罐還是玻璃罐一樣。重要的是我們前面講的三樣東西：掃描方式、色度採樣、壓縮。這三樣保證了，放進瓦罐還是玻璃罐都無所謂。
色度採樣的比較我們前面講了，4:2:2保留的色彩信息比4:2:0要多，因此必然比4:2:0要好。但壓縮怎麼比呢，兩種壓縮方式使用的是不同的壓縮原理。是的，在理論上的確不好比，但我們可以從它們在實際應用的表現，也就是解碼(Decoding)之後的畫面質量來對比，這就是後面的內容了。
轉載自鄧東的《理解視頻格式》

大熊背

發佈了49 篇原創文章 · 獲贊 140 · 訪問量 30萬+

私信關注

理解視頻格式（三）

三、視頻格式

PDManer [元數建模]-v4.9.0 發佈：一款簡單好用的數據庫建模平臺

使用neovim打造go ide(支持代碼跳轉, 代碼補全, 實時語法檢查)

sql求連續值問題

cs01 CSS Syntax

挑戰程序設計競賽 2.3章習題 poj 3046 Ant Counting

[MASM拾遺]Offset僞指令

h30 HTML Layout Elements

瞭解顯卡

一款基於C#開發的通訊調試工具（支持Modbus RTU、MQTT調試）

Linux/Golang/glibC系統調用

攝像機gamma校正

圖像增強算法之去抖動算法

ISP之LSC

數字圖像入門色彩的抖動

Understanding matrices intuitively, part 1

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結