視頻格式與質量

2.1介紹

    視頻編碼是對一個數字視頻信號的編碼和解碼的過程.這一章討論了數字圖象和視頻信號的結構和特徵以及對於視頻編碼來說很重要的一些基本概念,比如採樣格式等.數字視頻是對於一人自然的視覺場景的從時間和空間上進行採樣的表示方式.一個場景是由通過在時間上對於點進行採樣來得到幀從而產生的(一種對於在時間上點在整個視頻場景中的表示方法)或是一個場(由奇數或偶數行的空間採樣組成).採樣在一定的時間間隔上(通常是1/25或1/30秒時間間隔)進行重複,從而產生一個可動的視頻信號。一般來說,需要三種採樣集來表示一個有色的場景。表示數字視頻的流行的方法是使用ITU-R 601標準並使用"中間集"。對於一個視覺場景的重建的準確性必須被計算來決定一個視頻通信系統的性能,這是一個出了名的困難和極爲不準確的過程。主觀的測量方法是極耗時間而且它與觀察者對於變換的反應程序不同而不同。客觀的測量方法實現起來就更簡單一些,但是目前還不能與人類實際視覺感完完全全匹配。

    2.2 自然視頻場景

    一個經典的“現實世界”或“自然世界“的視頻場景是由多個有各自特徵形狀,深度,紋理和亮度的物體構成的。視頻場景的顏色和明亮度在不同的場景中根據不同程序的光滑度而定。一個與視頻處理和壓縮相關的經典的自然視頻場景包括空間特徵(紋理變換,物體的數目和形狀,顏色等)和時間特徵(物體運動,亮度的變化,視點的移動等)

    2.3 捕捉

    一個自然視頻場景在空間和時間上是連續的。用數字的形式表示一個視頻場景包括在空間對實際場景進行採樣(通常是通過在視頻圖形面上用長方形格處理)和時間採樣(以一系列以某時間間隔採樣得到的靜態幀組成)。數字視頻就是在數字形式下的一個視頻場景的採樣的表示方式。每一個時-空採樣(像素)用一個數或一組數來表示,用來描述採樣點的亮度和色度。

    爲了得到一個二維的採樣圖像,攝像頭把一個視頻場景的二維投影聚焦到傳感器上,比如一組電荷耦合裝置(CCD)。在帶色的圖像捕捉過程中,每一個顏色成員都分別被過濾並投影到一組CCD中。

    2.3.1 空間採樣

    一組CCD的輸出就是一個模擬的視頻信號,一組可以表示一個視頻圖像的電信號。在時間上對一點進行採樣就形成了一個有定值的採樣點圖像或幀。最常用的採樣方法是把採樣點置於一個正方形或長方形格中進行操作。然後對於每個格交點處的點進行採樣,重建過程就以採樣值對應到像素上進行顯示。重建圖的視覺效果取決於採樣點的數量。選擇一個粗糙的採樣格會得到一個低分辨率的採樣圖像,而增加採樣點的數量就會增加採樣圖像的分辨率。

    2.3.2 時間採樣

    一個可動的視頻圖像是通過對信號在週期性的時間間隔上進行快照得到的。重放這一系列的幀會得到一個運動的效果。一個高的時間採樣率(幀率)會產生更加平滑的運動但是它就要求有更多的採樣要被捕捉並被保存。在10幀每秒之下的幀率有些被用於一些很低碼率的視頻通信中(因爲被傳輸的數據量非常的小)但是運動卻看起來很笨拙而且不自然。在10-20幀每秒是比較經典的低碼率視頻。在25-30幀每秒進行採樣是標準電視信號圖象的採樣幀率(配合隔行掃描採樣來達到更好的運動效果)。50-60幀每秒就可以形成平滑的運動(代價就是幀率太過高,傳輸和存儲的壓力大).

    2.3.3 幀和場

    一個視頻信號可以被通過對於一系列幀(漸進採樣)或一個序列的隔行掃描的場(隔行掃描採樣)來進行採樣。在一個隔行掃描採樣的視頻序列裏,一幀的一半的數據是在每個時間採樣間隔進行採樣的。一個場由奇數個或偶數個掃描線組成,而一個隔行掃描的視頻序列包括一系列的視頻幀。這種採樣方式的優點在於與有相同幀數的同樣碼率的漸進序列相比,可以在一秒中傳輸兩倍多的場,這樣就可以形成更加平滑的運動。比如,一個PAL視頻序列由50場/秒的碼率組成,在回放過程中,運動可以比與之相同的25幀每秒的用漸進視頻序列形成的運動顯得更加的平滑。

    2.4 顏色空間

    大多數數字視頻程序都依賴於彩色視頻的顯示,這樣的話,就需要一個來捕捉並表示顏色空間的表示方法。一個單色的圖像只需要一個在空間內表示一個像素點的亮度或流明度的值就可以了。但對於顏色圖像來說,對於一個像素點至少需要三個數來把顏色信息準確地表示出來。用來表示亮度和顏色的方法叫做顏色空間。

    2.4.1 RGB

    在RGB顏色空間中,一個帶顏色的圖象採樣是用三個值來表示一個象素點的相對的紅,綠和藍色比(三種光線的主樣構成顏色)。任何顏色都可以通過把紅,綠和藍來通過不同的比例相混得到。RGB顏色空間更加適合於捕捉並顯示顏色圖像。捕捉RGB圖像包括過濾出紅,綠和藍色的構成比率,並用一個單獨的傳感器數組來捕捉。CRT和LCD通過分別對每個像素點的紅綠藍值進行顯示來得到各種顏色。從一個通常的觀察距離來看,不同的構成部分可以達到顏色上的真實感。

    2.4.2 YCbCr

    人類視覺系統(HVS)相比亮度來說對於顏色不是那麼敏感的。在RGB顏色空間中,三種顏色被平等地看待,並用相同的分辨率存放起來。但是通過把亮度與顏色信息分離,並對亮度值取更高的分辨率可以更有效地表示一個顏色圖像。

    YCbCr顏色空間和它的變換(通常寫爲YUV)是一種流行而高效的表示一個顏色圖像的方法。Y是亮度值,由R,G,B的加權平均可以得到: Y=krR + kgG + kbB
這裏k是加權因子。

    顏色信號可以由不同的顏色差別來表示:
Cb = B-Y
Cr = R-Y
Cg = G-Y
對於一個顏色圖像的完整的描述由給定Y和三個色差:Cb,Cr,Cg來表示。

    目前爲止,我們的表示方法好像並不那麼好,因爲相比RGB表示來說,我們這次用了四個參數。然後Cb+Cr+Cg是一個常數,那麼我們只需要兩個色度參數就可以了,第三個可以通過其他兩個計算出來。在YCbCr空間中,只有Y和Cb,Cr值被傳輸和存儲,而且Cb和Cr的分辨率可以比Y低,因爲人類視覺系統對於亮度更加敏感。這就減少了表示圖像的數據量。通常的觀察情況下,RGB和YCbCr表示的圖像看上去沒有什麼不同。對於色度採用比亮度低的分辨率進行採樣是一種簡單而有效的壓縮辦法。

    一個RGB圖像可以在捕捉之後轉換爲YCbCr格式用來減少存儲和傳輸負擔。在顯示圖象之前,再轉回爲RGB.注意沒有必要去指明分別的加權值kg(因爲kb+kr+kg=1),而且G可以從YCbCr中解壓出來,這說明不需要存儲和傳輸Cg參數。

Y = kr R + (1-kb-kr)G + kb B
Cb = 0.5/(1-kb) * (B-Y)
Cr = 0.5/(1-kr) * (R-Y)

R = Y + (1-kr)/0.5 * Cr
G = Y - 2kb(1-kb)/(1-kb-kr) * Cb - 2kr(1-kr)/(1-kb-kr) * Cr
B = Y + (1-kb)/0.5 * Cb

ITU-R的BT.601決議定義了kb=0.114,kr=0.299,那麼代換參數就有了如下等式:

Y = 0.299R + 0.587G + 0.114B
Cb = 0.564(B - Y )
Cr = 0.713(R - Y )

R = Y + 1.402Cr
G = Y - 0.344Cb - 0.714Cr
B = Y + 1.772Cb

    2.4.3 YCbCr採樣格式

    4:4:4採樣就是說三種元素Y,Cb,Cr有同樣的分辨率,這樣的話,在每一個像素點上都對這三種元素進行採樣.數字4是指在水平方向上對於各種元素的採樣率,比如說,每四個亮度採樣點就有四個Cb的Cr採樣值.4:4:4採樣完整地保留了所有的信息值.4:2:2採樣中(有時記爲YUY2),色度元素在縱向與亮度值有同樣的分辨率,而在橫向則是亮度分辨率的一半(4:2:2表示每四個亮度值就有兩個Cb和Cr採樣.)4:2:2視頻用來構造高品質的視頻彩色信號.

    在流行的4:2:0採樣格式中(常記爲YV12)Cb和Cr在水平和垂直方向上有Y分辨率的一半.4:2:0有些不同,因爲它並不是指在實際採樣中使用4:2:0,而是在編碼史中定義這種編碼方法是用來區別於4:4:4和4:2:2方法的).4:2:0採樣被廣泛地應用於消費應用中,比如視頻會議,數字電視和DVD存儲中。因爲每個顏色差別元素中包含了四分之一的Y採樣元素量,那麼4:2:0YCbCr視頻需要剛好4:4:4或RGB視頻中採樣量的一半。

    4:2:0採樣有時被描述是一個"每像素12位"的方法。這麼說的原因可以從對四個像素的採樣中看出.使用4:4:4採樣,一共要進行12次採樣,對每一個Y,Cb和Cr,就需要12*8=96位,平均下來要96/4=24位。使用4:2:0就需要6*8=48位,平均每個像素48/4=12位。

    在一個4:2:0隔行掃描的視頻序列中,對應於一個完整的視頻幀的Y,Cb,Cr採樣分配到兩個場中。可以得到,隔行掃描的總採樣數跟漸進式掃描中使用的採樣數目是相同的。

    2.5 視頻格式

    這本書中描述的視頻壓縮標準可以壓縮很多種視頻幀格式。實際中,捕捉或轉化一箇中間格式或一系列中間格式是很平常的事情。CIF就是一種常見的流行的格式,並由它衍生出了4CIF和Sub-QCif。幀分辨率的選擇取決於應用程序,可使用的存儲量以及傳輸帶寬。比如說4CIF對於標準定義的電視和DVD視頻來說是合適的,CIF和QCIF在視頻會議中是常被使用的格式。QCIF和SQCIF對於移動設備的多媒體程序來說是合適的,在這樣的情況下,顯示分辨率和碼率都是有限的。以下是各種格式的具體使用位數的需求(使用4:2:0採樣,對於每個元素用8個位大小表示):

格式: Sub-QCIF 亮度分辨率: 128*96  每幀使用的位: 147456
格式: QCIF  亮度分辨率: 176*144  每幀使用的位: 304128
格式: CIF  亮度分辨率: 352*288  每幀使用的位: 1216512
格式:  4CIF  亮度分辨率: 704*576  每幀使用的位: 4866048


    一種在電視信號中被應用的很廣的數字視頻信號編碼格式就是ITU-R的BT.601-5 提案。亮度元素被在13.5MHz下采樣,而亮度值則在6.75MHz下采樣,這樣就形成了一個4:2;2的Y:Cb:Cr採樣結果。採樣數字信號的參數取決於視頻碼率(對於NTSC來說是30Hz,對於PAL/SECAM來說是25Hz)。NTSC的30Hz是對低空間分辨率的補償,這樣總的碼率就是216Mbps.實際顯示的激活部分的區域要比總量小,因爲它去掉了在一幀邊緣處的水平和垂直空白間隔。
每一個採樣都有0-255的採樣範圍。0和255兩個等級被留作同步,而且激活的亮度信號被限制到26(黑色)到235(白色)之間.

    2.6 質量

    爲了指定,評價和比較視頻通信系統,我們需要決定向觀察者顯示的視頻圖像的質量。衡量視頻信號的質量是一件困難的事情,通常也是不準確的,因爲有太多的因素會影響到衡量的結果了。視覺質量與生俱來就是主觀的因素,它被很多因素影響着,這就使對於這個衡量結果的準確性變得更難了。比如說,一個視頻信號的質量對於一個觀察者來說主要取決於任務本身,比如說,被動地觀看一部DVD影片,主動地參與一個視頻會議,用符號評議進行通信交流,或是試圖從一個視頻場景中認出一個人。衡量視頻信號的客觀分類給定了一個準確的可重複的結果,但是沒有哪種客觀的測量方法可以完全地模擬人類視覺主觀的感受。

    2.6.1  主觀質量測量

    2.6.1.1 影響主觀質量的因素

    對於一個視頻場景的感覺是由人類視覺系統對於不同元素複雜交互性決定的----眼睛和大腦.對於視頻信號的感知是受空間保真度的影響的(不管有沒有明顯的失真,問題在於我們是否可以清楚地看到一個場景的各個部分)和時間保真度(運動是否自然平滑)。然而,一個觀察者對於質量的看法經常會被觀察環境,觀察者的心情和觀察者與場景的交互程序相關。一個執行特定任務的用戶需要關注於視頻場景的一部分。觀察一個場景常與看一個電影時的對於“好”的概念是不同的。例如,一個觀察者的對視頻質量的看法在觀察環境好的情況下會更好一些(而這一點不取決於視頻信號本身的好壞)

    其他的重要的影響因素包括視覺焦點(一個觀察者通過一系列的觀察點而不是同時觀察所有的內容)和所謂的"最新效應"(我們對於一個視頻序列的看法總是更多地受更新看到的內容的影響而不是老的內容)。所有的這些因素都讓衡量一個視頻的質量的好壞的任務變得極爲困難。

    2.6.1.2 ITU-R 500

    很多的關於主觀質量認下的測試過程都在ITU-R BT.500-11中被定義。一個常用的過程就是Double Stimulus Continuous Quality Scale(DSCQS)方法,評價者被展示了一系列的圖片或兩個視頻序列A和B(一個接一個地),然後被要求給出A和B的質量評價值,方法是在五個分隔着的評價值(從"Excellent"到"Bad")畫連續線來定。在一個典型的測試會話中,評價者被展示了一系列的序列,並被要求對它們進行評價。對於每對序列來說,一個是未受損的"參考“序列,另一個是同樣的序列,它被在測試的系統或過程中修改了。

    這兩個序列的順序,原始的和有損的,在測試地過程中被隨機的給出,這樣評價者就不知道哪個是原始的,哪個是改變過的序列。這樣就防止了評價者帶偏見地比交這兩個測試序列。在結束的時候,評分被轉化到一個規範化的範圍內,最終的結果是用平均評價值來說的,用它來指明相應的幀的質量。

    像DSCQS這樣的測試被廣泛地接受,並被用來評價主觀的視頻效果。然而,這樣的測試受實際問題的影響。這樣結果對於評價者來說差別會非常大。這個不同會被在重複測試的過程中被彌補過來。一個有經驗的評價者(對視頻壓縮失真瞭解的比較多的)會比那些非有經驗性的用戶會給出一個更帶偏見的評分。這就意味着一個很大的評價用戶羣是需要的,因爲沒有經驗的用戶很快會發現被改變的視頻的一些特徵。這些因素使得使用DSCQS方式的代價更大。

    2.6.2 客觀的質量測量

    主觀測量質量的方法的複雜性和消耗性讓用算法自動測量質量要更加的吸引人。視頻壓縮的開發者和視頻處理系統很大程序上依賴於所謂的客觀質量測量方法。最廣泛應用的方法是PSNR方法,但是這種方法的侷限性使人們不得不找更加複雜的方法來逼近人類視覺性。

    2.6.2.1 PSNR

    PSNR是用來在對數級上描述質量,並且依賴於原始信號和改變後信號的均方差(MSE):

    PSNR(db) = 10log(10)(2^n-1)^2/MSE
   
    PSNR可以很方便而快速地被計算出來,這樣它就成爲了一種很流行使用的方法,並用來測量壓縮和解碼視頻圖像的質量。

    PSNR方法有幾個侷限性,PSNR需要一個原始的圖像做爲對比,但是這也許是無法在所有情況下都可以實現的,也難保所謂的原始圖象沒受過影響。PSNR不能準確地給出主觀的視頻質量值。對於給定的一個圖象或一個圖象序列來說,高的PSNR通常說明質量高,低PSNR說明質量低。然而,一個特定的PSNR值並不等於絕對的主觀的質量。主觀上感覺好的圖象不一定PSNR值高。這種情況下,人類的觀察敏感區中心讓人感覺清晰度很好,但信嗓比不一定高。

    2.6.2.2 其他的客觀質量衡量方法

    因爲PSNR方法的侷限性,最近有很多工作用來開發更加複雜的客觀的測試過程,而且表示更準確的主觀信息。很多不同的方法都被提出了。但是沒有一個可以完全代替主觀測試。所以還沒有一個比較標準的,準確的,可用的方法。意識到這一點之後,ITU-T視頻質量專家組(VQEG)就致力於提出一種客觀的視頻質量評價機制。每一步就是測試並比較隱藏的模型與測試模型。在2000年三月,VQEG宣佈有10個這樣的測試系統備選。不幸的是,沒有一種被認爲是適合的。VQED在2003年進行了第二次的評估。除非非常在自動質量評價中有一個非常大的突破,否則這個問題是很難被解決了。

    2.7 結論

    採樣模擬信號會形成數字視頻信號,它有準確,高質量和對於數字媒體的存儲傳遞等各種優勢,但是會佔用比較在的空間。與生俱來的問題包括空間和時間分辨率,顏色表示和視頻質量的測量問題。下一章會介紹視頻壓縮的一些其他的基本理論.

 
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章