理解視頻格式(三)

三、視頻格式

      格式是什麼?
      我們前面已經知道了什麼是視頻,以及視頻是怎樣產生,又是怎樣被我們看到的。那什麼叫格式呢?其實格式也很簡單,格式(Format)指就是視頻的種類,不同的視頻類型就叫不同的視頻格式。如果也要來個口號的話,就是“格式就是種類”。
      我們前面知道CCD經過掃描,獲得了視頻畫面,那所謂的“不同的視頻類型”又是怎麼產生的呢?好,我們下面就來看看同樣是CCD產生的畫面,怎麼就變出“不同類型”的。 

①攝像機的組成
     下邊是一臺攝像機,我們按功能區域把它給拆開,得到四個部分:鏡頭、CCD、編碼、記錄。鏡頭不用說了。CCD我們也說過了,它通過掃描獲得畫面。編碼(Encoding),或者叫編碼處理器,就是把畫面變成信號編碼。記錄,其實就是個錄像機,把畫面編碼寫進磁帶、硬盤或者存儲卡里。

        怎麼樣,攝像機結構很簡單吧。你一定猜到了,導致產生不同視頻類型的部分就是編碼部分。不同的編碼處理器,就產生不同的編碼,而這些不同編碼,就是形成了不同的視頻格式。那可不可以這樣說:如果換一個編碼處理器,那就能產生另一種視頻格式了?哈哈,還就是這樣。你裝一個DV編碼器,你的攝像機就是DV機,你裝一個DVCAM編碼器,你的機器就是DVCAM。當然,小攝像機的編碼部分是不可更換的,在有的廣播級攝像機上就可以,它們後面的編碼記錄部分是可更換的,裝上Beta就是Beta機,裝上DVCAM就是DVCAM機。換一個編碼處理器,那就怎麼樣,攝像機結構很簡單吧。你一定猜到了,導致產生不同視頻類型的部分就是編碼部分。不同的編碼處理器,就產生不同的編碼,而這些不同編碼,就是形成了不同的視頻格式。那可不可以這樣說:如果換一個編碼處理器,那就能產生另一種視頻格式了?哈哈,還就是這樣。你裝一個DV編碼器,你的攝像機就是DV機,你裝一個DVCAM編碼器,你的機器就是DVCAM。當然,小攝像機的編碼部分是不可更換的,在有的廣播級攝像機上就可以,它們後面的編碼記錄部分是可更換的,裝上Beta就是Beta機,裝上DVCAM就是DVCAM機。

②採樣
       既然我們知道了,編碼器是產生視頻格式的關鍵,那我們就來看看視頻格式到底是怎麼生產出來的。
      看下圖,這是攝像機各部分對應的視頻圖像的處理流程。我們看到鏡頭和CCD部分把拍攝的畫面變成了RGB像素(我們用4個像素來舉例)。然後CCD把生成的RGB像素髮送給編碼部分。
      哇塞,編碼部分果然有很多事情要做。首先,它把RGB轉換成YUV,YUV我們前面已經介紹過了,複習一下,Y是亮度分量,U和V是色度分量。然後編碼器進行對YUV進行採樣,生成碼流,然後進行壓縮。最後送給記錄部分,寫進磁帶裏。
      編碼部分的工作實際上就是轉換成YUV、對YUV進行採樣、壓縮,3個工作。
     你一定會覺得奇怪,除了RGB轉換成YUV,像素信息好像也沒什麼變化嘛,採樣也沒有改什麼,頂多壓縮一下就寫進磁帶了。是啊,這張圖似乎不太能說明什麼問題,我們看下頁那張。

 

       看下圖。注意編碼處理的部分,轉換YUV和上面那張圖一樣,但採樣部分就變了。經過採樣後,Y分量都還在,但幾個U分量和V分量不見了,具體就是U2、U4、V1、V3不見了。去哪裏了?很抱歉,扔掉了。什麼!不要啦?是的,不要了。
       爲什麼要把幾個分量扔掉,難道不需要嗎?其實不是不需要,只是我們的磁帶裝不下那麼多信息,於是就在採樣的過程中,把一些色度信息剔除掉,從而把整體信息容量減少,這樣可使傳輸和處理都相對容易些。扔掉了色度信息,色彩不就失真了嗎?是的,失真是必然的,但如果能控制在可以接受且不易辨認的範圍內就沒有問題。可是爲什麼不扔掉幾個Y呢?因爲Y作爲亮度分量承載的是圖像信息,簡單地講,它代表的是形狀,如果形狀信息扔了,圖像就會變形;而色彩信息則沒那麼嚴重,即便全扔了還能看黑白電視,所以要犧牲只能犧牲色彩。可到時播放的時候,電視機仍然是需要RGB信息啊,你把一部分色彩分量扔了,到時你拿什麼轉換回RGB給電視機?這個問題不着急,現在我們纔剛開始編碼呢,到後面解碼的時候自有辦法。
       仔細看一下采樣後的4個像素,Y都在有4個,U剩2個,V剩2個。我們就把這樣的採樣叫做4:2:2採樣,意思就是“Y比U比V”的比例。你可以回頭看前面那張圖,知道怎麼叫了吧,對了,那就是傳說中的4:4:4採樣。 4:4:4採樣就是什麼東西都沒扔,因此是最保真的,當然,需要的信息存儲空間也是最大的。

 

       怎麼樣,這個所謂的採樣很容易理解吧。因爲採樣扔的都是色度信息,所以也被稱作“色度採樣”或“色彩採樣”。色度採樣是視頻格式中的重要部分,在每個視頻格式的參數中必然有該格式所使用的採樣,而且都是“Y:U:V”的寫法。採樣大都以4個像素作爲一個採樣單位,而且Y都是不扔的,所以基本都是“4:X:X”這樣的形式。
      注意,這個“色度採樣”和前面的“CCD採樣率”是不一樣的。色度採樣是對色彩的處理,而CCD採樣率是“拾取”CCD上的圖像信息。
      好,我們來看4:1:1採樣。如圖,經採樣後,4個像素只剩下了1個U分量和1個V分量,因此就叫4:1:1。呵,夠狠的,色度信息一下被扔掉了3/4。是啊,NTSC制式的DV就是這種採樣。那我們PAL制的DV據說是4:2:0採樣,是不是比他們的N制的強呢?我們就接着看4:2:0採樣,一會兒就知道答案了。

        4:2:0採樣比前面三種複雜點,但也不難理解。看圖,4:2:0採樣按2排共8個像素作爲1個採樣單位。我們知道採樣的關鍵就是怎麼扔色度信息。先看第1排,U分量扔掉2個,V分量全扔;再看第2排,U分量全扔,V分量扔掉2個。扔完之後,我們單看第1排,可以叫它4:2:0;單看第2排,可以叫它4:0:2;如果我們兩排一起看,可以叫它8:2:2,對吧。爲了和其他的採樣形式在名稱上統一,這種採樣就用第1排的4:2:0來代表了。因此,也容易造成誤解,從字面看彷彿V分量都扔光了。
       這就是我們PAL制DV採用的色度採樣,它和4:1:1一樣,都扔掉了3/4的色度信息,因此沒有哪個更好,很遺憾,難兄難弟而已。從色度採樣我就能知道,爲什麼我們DV的色彩比不了電視臺的大攝像機,色彩都採成這樣了,能“出彩”嗎。 

 

③ 壓縮
     編碼器完成色度採樣之後,形成的編碼對於磁帶而言依然太大了。有沒有搞錯?都採成這樣了還大啊!沒辦法,視頻就這樣。採樣完的1幀DV畫面(720x576)有約600KB大小,1秒15MB,1分鐘將近1GB(一張DVD容量4.7GB);而一盤60分鐘的DV磁帶容量才13GB,不壓縮往哪放啊。如圖,採樣後的視頻碼流被送進一個“榨汁機”裏進行壓縮,被榨成“脫水蔬菜”,這樣就好裝進“罐頭”裏了。
      針對不同的“罐頭”尺寸和“蔬菜”種類,“榨汁機”的種類和“壓榨力度”也不一樣。有些罐頭容量比較大,榨汁的力度就可以小點,榨出的蔬菜還帶點水分;如果罐頭比較小,而蔬菜又比較多,那榨出來就是“菜乾”了,就像方便麪裏那種。 ^_^
      所謂壓縮,就是通過某種數據運算將畫面中一些“冗餘的”部分去除,在保證畫面質量的同時降低數據量。雖然理論上存在無損壓縮,但無損壓縮的數據量跟不壓縮相差無幾。因此在實際應用中,我們使用的壓縮都是有損壓縮,意思就是,畫面的質量是一定會下降的,只是下降的幅度或多或少而已。

       從“榨汁方法”來講,視頻壓縮分兩種:一種叫幀內壓縮(Intraframe Compression),另一種叫幀間壓縮(Interframe Compression)。幀內壓縮就是每幀自己壓自己的,跟前面和後面的幀都沒有關係。幀間壓縮就是根據某一幀前面和後面的幀進行壓縮,如下圖所示,如果在連續幾幀中,不變化的畫面部分將作爲“沒用的”部分被去掉,只留下那些“有用的”部分。 

     壓縮方式是視頻格式中的第三個重要部分(前面兩個是CCD掃描方式和色度採樣)。使用什麼樣的壓縮方式,將直接影響視頻格式的質量。在分析壓縮前,我們先介紹幾個名詞:
   ①I幀(Intra-frame),讀作“挨針”。這個詞在關於視頻壓縮的文章中經常出現,顯得很深奧的樣子,其實,所謂I幀就是“關鍵幀”,意思就是這幀很關鍵。爲什麼關鍵呢?因爲這幀裏包含了進行壓縮所需要的全部信息。比如上面“幀間壓縮”的第一個畫面,就是一個I幀。
   ②GOP(Group of Pictures),有人翻譯作“圖片羣”或“圖片組”,我們直接讀“居歐劈”即可。GOP指的就是一組連續的幀,比如6幀GOP就是連續6幀畫面,15幀GOP就是連續15幀畫面。很容易理解哈。 

   ③ 短GOP(Short GOP),指只有一幀的GOP,而且這幀是I幀(“挨針”)。比如上面圖中“幀內壓縮”的每個畫面都是一個短GOP,即每幀都是I幀。短GOP的提法比較少用,一般都是直接說I幀。
   ④ 長GOP(Long GOP),超過一幀的GOP,比如6幀GOP,15幀GOP。長GOP習慣寫作LGOP。通常來講,如果提到GOP指的都是LGOP。
   ⑤B幀 (Bi-direction frame) 和P幀 (Predicted frame),B幀和P幀都是沒有完整畫面信息的幀,它們只在幀間壓縮中才會存在。比如上面圖中“幀間壓縮”的第二個畫面。

    好了,現在可以開講壓縮了。首先是幀內壓縮。幀內壓縮就是以幀爲單位進行壓縮,每一幀都是獨立作業,幀之間不互相影響,因此幀內壓縮在很大程度上就相當於圖片壓縮,每一幀就是一張圖片。比如最常見的壓縮方式M-JPEG,就是JPEG圖片壓縮方式在視頻壓縮上的應用。由於每幀是獨立壓縮,且每幀都是I幀,因此幀內壓縮也被稱爲“I幀壓縮”。DV格式使用的就是I幀壓縮。

     相對於幀內壓縮而言,幀間壓縮就複雜一些。首先,幀間壓縮不是以幀爲單位,而是以LGOP爲單位。意思就是說,幀間壓縮不是一幀一幀地壓,而是一組一組地壓。如圖,這是一個典型的“15幀LGOP幀間壓縮”。15幀作爲一個LGOP,以一個I幀領頭,I幀保留了後面14幀中的“沒用的”的信息;然後後面的B幀和P幀把“沒用的”內容扔掉,只留下“有用的”,於是B幀和P幀就能變得很小;從而在壓縮率上就能夠獲得比幀內壓縮更高的壓縮率。由於幀間壓縮都是以LGOP爲單位進行壓縮,因此又被稱爲“LGOP壓縮”。HDV格式使用的“MPEG-2壓縮”就是一種LGOP壓縮,索尼Z1使用的是“15幀LGOP壓縮”,JVC HD100使用的是“6幀LGOP壓縮”。還有AVCHD的“MPEG-4壓縮”和現在流行的“H.264壓縮”都是LGOP壓縮。 

       I幀壓縮(幀內)和LGOP壓縮(幀間)的出發點是不一樣。I幀壓縮是根據每幀的“畫面內容”進行壓縮,由於每幀獨立,無論拍攝的是運動鏡頭還是固定鏡頭,對壓縮率並沒有影響。LGOP壓縮是根據“幀與幀之間的關係”進行壓縮,如果是靜止畫面,I幀後面的那些B幀和P幀幾乎什麼信息都可以不留;如果是運動畫面, B幀和P幀只需要保留那些變化的即可。如果用一句話來區分這兩種壓縮方式,可以說:“I幀壓縮是靜態壓縮,LGOP壓縮是動態壓縮”。從算法理論上講,這兩種壓縮方式並沒有誰優誰 劣,只是方式不用而已。但從壓縮率上講,LGOP壓縮的壓縮率就比I幀壓縮要高很多。

     如圖,I幀壓縮後的4幀畫面的容量大約可以裝得下LGOP壓縮後的15幀畫面。這就是爲什麼HDV畫面可以裝進DV磁帶裏的原因,壓得跟DV一樣小了,當然就可以裝進去了。也正因爲這樣,LGOP壓縮在視頻傳輸領域被廣泛應用,數字電視網信號、DVD、HD DVD、藍光DVD(Blue-ray disc)、以及常見的網絡流媒體(WMV、DivX、MP4……)都是使用LGOP壓縮。

    但是,即使是同一種壓縮方式裏,也有不同的壓縮率和壓縮質量,比如同是MPEG-2壓縮,DVD的壓縮率就比HDV要高很多,但質量就比不了HDV;你可以理解成“榨汁力度”不同,DVD是“濃縮型”,HDV是“原汁型”。
至於說裝“菜乾”的“罐頭”是磁帶、硬盤、光盤、還是存儲卡,並不重要,這些都只是存儲介質而已,就像“罐頭”是鐵罐還是玻璃罐一樣。重要的是我們前面講的三樣東西:掃描方式、色度採樣、壓縮。這三樣保證了,放進瓦罐還是玻璃罐都無所謂。
色度採樣的比較我們前面講了,4:2:2保留的色彩信息比4:2:0要多,因此必然比4:2:0要好。但壓縮怎麼比呢,兩種壓縮方式使用的是不同的壓縮原理。是的,在理論上的確不好比,但我們可以從它們在實際應用的表現,也就是解碼(Decoding)之後的畫面質量來對比,這就是後面的內容了。
轉載自鄧東的《理解視頻格式》

發佈了49 篇原創文章 · 獲贊 140 · 訪問量 30萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章