圖像視頻基礎知識

一 光和顏色

1 光和顏色

  可見光是波長在380nm~780nm 之間的電磁波,我們看到的大多數光不是一種波長的光,而是由許多不同波長的光組合成的。如果光源由單波長組成,就稱爲單色光源。該光源具有能量,也稱強度。實際中,只有極少數光源是單色的,大多數光源是由不同波長組成,每個波長的光具有自身的強度。這稱爲光源的光譜分析。
  顏色是視覺系統對可見光的感知結果。研究表明,人的視網膜有對紅、綠、藍顏色敏感程度不同的三種錐體細胞。紅、綠和藍三種錐體細胞對不同頻率的光的感知程度不同,對不同亮度的感知程度也不同。
  自然界中的任何一種顏色都可以由R,G,B 這3 種顏色值之和來確定,以這三種顏色爲基色構成一個RGB 顏色空間,基色的波長分別爲700 nm(紅色)、546.1nm(綠色)和435.8 nm(藍色)。顏色=R(紅色的百分比)+G(綠色的百分比)+B(藍色的百分比)。可以選擇不同的三基色構造不同的顏色空間,只要其中一種不是由其它兩種顏色生成。例如Y(Yellow,黃色),C( Cyan,青色),M(Magenta,品紅)。

2 顏色的度量

  圖像的數字化首選要考慮到如何用數字來描述顏色。國際照明委員會CIE(International Commission on Illumination)對顏色的描述作了一個通用的定義,用顏色的三個特性來區分顏色。這些特性是色調,飽和度和明度,它們是顏色所固有的並且是截然不同的特性。
  色調(hue)又稱爲色相,指顏色的外觀,用於區別顏色的名稱或顏色的種類。色調用紅、橙、黃、綠、青、藍、靛、紫等術語來刻畫。用於描述感知色調的一個術語是色彩(colorfulness)。
  飽和度(saturation)是相對於明度的一個區域的色彩,是指顏色的純潔性,它可用來區別顏色明暗的程度。完全飽和的顏色是指沒有滲入白光所呈現的顏色,例如僅由單一波長組成的光譜色就是完全飽和的顏色。
  明度(brightness)是視覺系統對可見物體輻射或者發光多少的感知屬性。它和人的感知有關。由於明度很難度量,因此國際照明委員會定義了一個比較容易度量的物理量,稱爲亮度(luminance)來度量明度,亮度(luminance)即輻射的能量。明度的一個極端是黑色(沒有光),另一個極端是白色,在這兩個極端之間是灰色。
  光亮度(lightness)是人的視覺系統對亮度(luminance)的感知響應值,光亮度可用作顏色空間的一個維,而明度(brightness)則僅限用於發光體,該術語用來描述反射表面或者透射表面。

3 色溫

  顧名思義,色溫的意思就是“色彩的溫度”,這其實是從熱力學的角度來定義光線的顏色的。
  現在,我們想象有這樣一個絕對黑體(其實這是科學家們想出來的),這個物體的性質是可以將能量無損的轉換爲電磁波。接着,我們從絕對零度開始持續加溫這個黑體,在這個過程中它所呈現出來的顏色就叫做“色溫”。
  舉個例子,隨着溫度的增加,電磁波的波長越來越短,最終波長到達人眼可以感知的長度,這時候,它發光了,最初始應該是紅色。
  繼續加熱黑體,發現它在1800K溫度的時候發出和燭光一樣顏色的光。那麼,我們就定義:燭光的色溫大概是1800K。
  繼續加熱黑體,這時候,它在3200K的時候發出了和家用白熾燈同樣顏色的光。那麼我們定義:家用白熾燈的色溫大概是3200K。
  繼續加熱,它會發出和晴天正午陽光一樣顏色的光,很耀眼的白色。再次測量其溫度,大概是5600K。那麼我們再次定義:晴天正午陽光色溫大概是5600K。
在這裏插入圖片描述
  從圖中我們知道:色溫值越高,色調越冷,也就是越藍。反之則越暖。

4 白平衡

  OK,既然理解了色溫的概念,我們就可以說白平衡了。下面爲光線樣圖。
光線樣圖
  通過剛纔的講述,我們知道了光線的顏色是不同的。平時我們用眼睛去觀看不同光源下的白色物體時,我們沒有異樣的感覺,認爲這就是白色的,即使看起來是黃色,但我們也明白是光源的干擾,實際上這個東西依舊是白色。
  這是因爲大腦自動的糾正了光線的偏差。但是相機不行,相機分辨不出當前是什麼光源,相機認識的只有一個東西——“色溫”。當你給出具體的色溫值,相機就會認爲光源的顏色和色溫一致,進而根據這個色溫爲基準,計算出照片的色彩。因爲相機中色彩的還原是以白色爲基色,所以設置色溫這個操作被稱作設置“白平衡”。
  人眼中的白色總是R = G = B,那麼白平衡所做的事情就是在任意環境下,就是找到圖像中的白塊,然後調整R、G、B的比例。也就是將sensor響應的RGB分別乘上一個係數,使得"白色成爲白色"。

R' = R x R_Gain
G' = G x G_Gain
B' = B x B_Gain
# 使得R' = G' = B'

  好的,讓我們來看一組白平衡對比圖:
在這裏插入圖片描述
  細心的小夥伴肯定發現了,隨着K值增大,白平衡之後反而越黃了?而隨着K值減小,白平衡之後反而越藍了?
  如果你認真看上面的原理解釋,你會發現:其實,在相機中,色彩的還原是以白色爲基色,白平衡是使得"白色成爲白色"。
  所以,當相機看到你設置了一個比較高的K值,以爲這地方色溫高,會很努力往畫面中添加黃(紅)來中和,結果……更黃(紅)了。
  當相機看到你設置了一個比較低的K值,以爲這地方色溫低,會很努力往畫面中添加藍色來中和,結果……更藍了。
  這就是白平衡啦。
  本文僅供學習交流,若有疑問,歡迎批評指正。更詳細的介紹請參考本文引用鏈接:
  1. https://www.zhihu.com/question/20599592/answer/15603452
  2. https://www.zhihu.com/question/20599592/answer/15607541
  3. https://blog.csdn.net/htjacky/article/details/78804816

5 顏色空間

  顏色空間是表示顏色的一種數學方法,人們用它來指定和產生顏色,使顏色形象化。顏色空間中的顏色通常使用代表三個參數的三維座標來指定,這些參數描述的是顏色在顏色空間中的位置,但並沒有告訴我們是什麼顏色,其顏色要取決於我們使用的座標。
  使用色調、飽和度和明度構造的一種顏色空間,叫做HSB(hue, saturation and brightness)顏色空間。RGB(red,green and blue)和CMY(cyan, magenta and yellow)是最流行的顏色空間,它們都是與設備相關的顏色空間,前者用在顯示器上,後者用在打印設備上。
  從技術上角度區分,顏色空間可考慮分成如下三類:
  RGB 型顏色空間/計算機圖形顏色空間:這類模型主要用於電視機和計算機的顏色顯示系統。例如,RGB,HSI, HSL 和HSV 等顏色空間。
  XYZ 型顏色空間/CIE 顏色空間:這類顏色空間是由國際照明委員會定義的顏色空間,通常作爲國際性的顏色空間標準,用作顏色的基本度量方法。例如,CIE 1931 XYZ,Lab,Luv 和LCH 等顏色空間就可作爲過渡性的轉換空間。
  YUV 型顏色空間/電視系統顏色空間:由廣播電視需求的推動而開發的顏色空間,主要目的是通過壓縮色度信息以有效地播送彩色電視圖像。例如,YUV,YIQ,ITU-R BT.601 Y’CbCr, ITU-R BT.709 Y’CbCr 和SMPTE-240M Y’PbPr 等顏色空間。
  YUV,分爲三個分量,“Y”表示明亮度(Luminance或Luma),也就是灰度值;而“U”和“V” 表示的則是色度(Chrominance或Chroma),作用是描述影像色彩及飽和度,用於指定像素的顏色。與我們熟知的RGB類似,YUV也是一種顏色編碼方法,主要用於電視系統以及模擬視頻領域,它將亮度信息(Y)與色彩信息(UV)分離,沒有UV信息一樣可以顯示完整的圖像,只不過是黑白的,這樣的設計很好地解決了彩色電視機與黑白電視的兼容問題。並且,YUV不像RGB那樣要求三個獨立的視頻信號同時傳輸,所以用YUV方式傳送佔用極少的頻寬。
  RGB,計算機彩色顯示器顯示色彩的原理與彩色電視機一樣,都是採用R(Red)、G(Green)、B(Blue)相加混色的原理:通過發射出三種不同強度的電子束,使屏幕內側覆蓋的紅、綠、藍磷光材料發光而產生色彩。這種色彩的表示方法稱爲RGB色彩空間表示(它也是多媒體計算機技術中用得最 多的一種色彩空間表示方法)。根據色度學的介紹,不同波長的單色光會引起不同的彩色感覺,但相同的彩色感覺卻可以來源於不同的光譜成分組合。自然界中幾乎所有的顏色都能用三種基本彩色混合配出,在彩色電視技術中選擇紅色、綠色、和藍色作爲三基色。其他的顏色都可以用紅色、綠色和藍色按照不同的比例混合而成。所選取的紅色、綠色和藍色三基色空間。簡稱爲RGB顏色空間。

6 顏色空間的轉換

  不同顏色可以通過一定的數學關係相互轉換:
  有些顏色空間之間可以直接變換。例如,RGB 和HSL,RGB 和HSB,RGB 和R’G’B’, R’G’B’和Y’CrCb,CIE XYZ 和CIE Lab等。
  有些顏色空間之間不能直接變換。例如,RGB 和CIE Lab*, CIE XYZ和HSL,HSL 和Y’CbCr 等,它們之間的變換需要藉助其他顏色空間進行過渡。
  R’G’B’和Y’CbCr 兩個彩色空間之間的轉換關係用下式表示:

Y = 0.299R + 0.587G + 0.114B
Cr = (0.500R - 0.4187G - 0.0813B) + 128
Cb = (-0.1687R - 0.3313G + 0.500B) + 128

二 模擬視頻和數字視頻

1 概述

  視頻信號可分爲模擬視頻信號和數字視頻信號兩大類:模擬視頻信號和數字視頻信號。
  模擬視頻是指每一幀圖像是實時獲取的自然景物的真實圖像信號。我們在日常生活中看到的電視、電影都屬於模擬視頻的範疇。模擬視頻信號具有成本低和還原性好等優點,視頻畫面往往會給人一種身臨其境的感覺。但它的最大缺點是不論被記錄的圖像信號有多好,經過長時間的存放之後,信號和畫面的質量將大大的降低;或者經過多次複製之後,畫面的失真就會很明顯。
  數字視頻信號是基於數字技術以及其他更爲拓展的圖像顯示標準的視頻信息,數字視頻與模擬視頻相比有以下特點:(1)數字視頻可以可以不失真的進行無數次複製,而模擬視頻信號每轉錄一次,就會有一次誤 差積累,產生信號失真。(2)模擬視頻長時間存放後視頻質量會降低,而數字視頻便於長時間的存放。(3)可以對數字視頻進行非線性編輯,並可增加特技效果等。(4)數字視頻數據量大,在存儲與傳輸的過程中必須進行壓縮編碼。隨着數字視頻應用範圍不斷髮展,它的功效也越來越明顯。

2 模擬攝像機

  模擬攝像機所輸出的信號形式爲標準的模擬量視頻信號,需要配專用的圖像採集卡才能轉化爲計算機可以處理的數字信息。模擬攝像機一般用於電視攝像和監控領域,具有通用性好、成本低的特點,但一般分辨率較低、採集速度慢,而且在圖像傳輸中容易受到噪聲干擾,導致圖像質量下降,所以只能用於對圖像質量要求不高的機器視覺系統。常用的攝像機輸出信號格式有:
pal(黑白爲 ccir ),中國電視標準,625 行,50 場;ntsc(黑白爲 eia),日本電視標準,525 行,60 場;secam,s-video;分量傳輸。

3 區別

  1 前端
  模擬:只有模擬攝象機即可,視頻沒有經過壓縮,圖象質量好,但佔用資源極多,存儲和檢索不方便,反覆查看錄像會造成錄像效果越來越差;
  數字: 需要視頻服務器 +模擬攝象機,圖象經過壓縮(m-jpeg,mpeg1、2、4,h.263、h.264…),圖象會有不同程度的損失,畫面質量也根據不同的壓縮方式各不相同。
  2、傳輸
  模擬: 直接通過同軸電纜傳到監控中心的監視器上,最遠距離在 1200 米左右 (理論值),光端機除外。模擬視頻信號的傳輸對距離十分敏感,當傳輸距離大於 1000 米時,信號容易產生衰耗、畸變、羣延時,並且易受干擾,使圖像質量下降;其次,有線模擬視頻監控無法聯網,只能以點對點的方式監視現場,並且使佈線工程量大;
  數字: 通過網線與局域網連接,使處在整個網絡的電腦主機都可以訪問,當然局域網如果能連接到互聯網,那整個互聯網都可以訪問到,這就大大擴展了監控的範圍,可以世界的每一個角落都成了監控中心。
  3、監控主機
  模擬:是通過監視器直接接收視頻信號,圖象質量好;
  數字: 通過電腦主機來顯示監控畫面,圖象經過硬件壓縮,有的還要經過軟壓縮,圖象連貫性以及畫面質量相對模擬都要差一些,查詢取證時十分方便。

三 彩色電視的制式及其顏色空間

1 彩色電視制式

  彩色電視視頻信號是一種模擬信號,由視頻模擬數據和視頻同步數據構成,用於接收端正確地顯示圖像。信號的細節取決於應用的視頻標準或者“制式”,目前世界上現行的彩色電視制式有三種:NTSC 制、PAL 制和SECAM 制。這裏不包括高清晰度彩色電視HDTV (High-Definition television)。
  NTSC(National Television Systems Committee)彩色電視制是1952 年美國國家電視標準委員會定義的彩色電視廣播標準,稱爲正交平衡調幅制。美國、加拿大等大部分西半球國家,以及日本、韓國、菲律賓等國和中國的臺灣採用這種制式。NTSC 彩色電視制的主要特性是:(1)525 行/幀, 30 幀/秒(29.97 fps, 33.37 ms/frame);(2)高寬比:電視畫面的長寬比(電視爲4:3;電影爲3:2;高清晰度電視爲16:9);(3)隔行掃描,一幀分成2 場(field),262.5 線/場;(4)在每場的開始部分保留20 掃描線作爲控制信息,因此只有485 條線的可視數據。Laser disc 約~420 線,S-VHS 約~320 線;(5)每行63.5 微秒,水平回掃時間10 微秒(包含5 微秒的水平同步脈衝),所以顯示時間是 53.5 微秒;(6)顏色模型:YIQ。
  一幀圖像的總行數爲525 行,分兩場掃描。行掃描頻率爲15 750 Hz,週期爲63.5μs;場掃描頻率是60 Hz,週期爲16.67 ms;幀頻是30 Hz,週期33.33ms。每一場的掃描行數爲525/2=262.5 行。除了兩場的場回掃外,實際傳送圖像的行數爲480 行。
  由於NTSC 制存在相位敏感造成彩色失真的缺點,因此德國(當時的西德)於1962 年制定了PAL(Phase-Alternative Line)制彩色電視廣播標準,稱爲逐行倒相正交平衡調幅制。德國、英國等一些西歐國家,以及中國、朝鮮等國家採用這種制式。PAL 電視制的主要掃描特性是:(1)625 行(掃描線)/幀,25 幀/秒(40 ms/幀);(2)長寬比(aspect ratio):4:3;(3)隔行掃描,2 場/幀,312.5 行/場;(4)顏色模型:YUV。
  法國制定了SECAM (法文:Sequential Coleur Avec Memoire)彩色電視廣播標準,稱爲順序傳送彩色與存儲制。法國、蘇聯及東歐國家採用這種制式。世界上約有65 個地區和國家試驗這種制式。這種制式與PAL 制類似,其差別是SECAM 中的色度信號是頻率調製(FM),而且它的兩個色差信號:紅色差(R’-Y’)和藍色差(B’-Y’)信號是按行的順序傳輸的。法國、俄羅斯、東歐和中東等約有65 個地區和國家使用這種制式,圖像格式爲4:3,625 線,50 Hz,6 MHz 電視信號帶寬,總帶寬8 MHz。

2 彩色電視的顏色空間

  在彩色電視中,用Y、C1, C2 彩色表示法分別表示亮度信號和兩個色差信號,C1,C2 的含義與具體的應用有關。在NTSC 彩色電視制中,C1,C2 分別表示I、Q 兩個色差信號;在PAL 彩色電視制中,C1,C2 分別表示U、V 兩個色差信號;在CCIR 601 數字電視標準中,C1,C2 分別表示Cr,Cb 兩個色差信號。所謂色差是指基色信號中的三個分量信號(即R、G、B)與亮度信號之差。
  NTSC 的YIQ 顏色空間與RGB 顏色空間的轉換關係如下:

Y=0.30R+0.59G+0.11B
I=0.74(R-Y)-0.27(B-Y) = 0.60R+0.28G+0.32B
Q=0.48(R-Y)-0.27(B-Y) = 0.21R+0.52G+0.31B

  PAL 的YUV 顏色空間與RGB 顏色空間的轉換關係如下:

Y=0.30R+0.59G+0.11B
U=0.493(B-Y) = -0.15R-0.29G+0.44B
Q=0.877(R-Y) = 0.62R-0.52G-0.10B

四 視頻圖像採樣

  模擬視頻的數字化包括不少技術問題,如電視信號具有不同的制式而且採用複合的YUV 信號方式,而計算機工作在RGB 空間;電視機是隔行掃描,計算機顯示器大多逐行掃描;電視圖像的分辨率與顯示器的分辨率也不盡相同等等。因此,模擬視頻的數字化主要包括色彩空間的轉換、光柵掃描的轉換以及分辨率的統一。
  模擬視頻一般採用分量數字化方式,先把複合視頻信號中的亮度和色度分離,得到 YUV 或 YIQ 分量,然後用三個模/數轉換器對三個分量分別採樣並進行數字化,最後再轉換成RGB 空間。

1 圖像子採樣

  對彩色電視圖像進行採樣時,可以採用兩種採樣方法。一種是使用相同的採樣頻率對圖像的亮度信號(Y)和色差信號(Cr,Cb)進行採樣,另一種是對亮度信號和色差信號分別採用不同的採樣頻率進行採樣。如果對色差信號使用的採樣頻率比對亮度信號使用的採樣頻率低,這種採樣就稱爲圖像子採樣(subsampling)。由於人的視覺對亮度信號的敏感度高於對色差的敏感度,這樣做利用人的視覺特性來節省信號的帶寬和功率,通過選擇合適的顏色模型,可以使兩個色差信號所佔的帶寬明顯低於Y 的帶寬,而又不明顯影響重顯彩色圖像的觀看。
  目前使用的子採樣格式有如下幾種:
  (1)4:4:4 這種採樣格式不是子採樣格式,它是指在每條掃描線上每4 個連續的採樣點取4 個亮度Y 樣本、4 個紅色差Cr 樣本和4 個藍色差Cb 樣本,這就相當於每個像素用3 個樣本表示。
  (2)4:2:2 這種子採樣格式是指在每條掃描線上每4 個連續的採樣點取4個亮度Y 樣本、2 個紅色差Cr 樣本和2 個藍色差Cb 樣本,平均每個像素用2 個樣本表示。
  (3)4:1:1 這種子採樣格式是指在每條掃描線上每4 個連續的採樣點取4個亮度Y 樣本、1 個紅色差Cr 樣本和1 個藍色差Cb 樣本,平均每個像素用1.5個樣本表示。
  (4)4:2:0 這種子採樣格式是指在水平和垂直方向上每2 個連續的採樣點上取2 個亮度Y 樣本、1 個紅色差Cr 樣本和1 個藍色差Cb 樣本,平均每個像素用1.5 個樣本表示。

2 CIF、QCIF和SQCIF格式

  爲了既可用625 行的電視圖像又可用525 行的電視圖像,CCITT 規定了稱爲公用中分辨率格式CIF(Common Intermediate Format),1/4 公用中分辨率格式 QCIF(Quarter-CIF)和SQCIF(Sub-Quarter Common Intermediate Format)格式對電視圖像進行採樣。
  CIF 格式具有如下特性:
  (1)電視圖像的空間分辨率爲家用錄像系統(Video Home System,VHS)的分辨率,即352×288。
  (2)使用非隔行掃描(non-interlaced scan)。
  (3)使用NTSC 幀速率,電視圖像的最大幀速率爲30000/1001≈29.97 幅/秒。
  (4)使用1/2 的PAL 水平分辨率,即288 線。
  (5)對亮度和兩個色差信號(Y、Cb 和Cr)分量分別進行編碼,它們的取值範圍同ITU-R BT.601。即黑色=16,白色=235,色差的最大值等於240,最小值等於16。
  下面爲5 種 CIF 圖像格式的參數說明。參數次序爲“圖象格式 亮度取樣的像素個數(dx)亮度取樣的行數 (dy)色度取樣的象素個數(dx/2)色度取樣的行數(dy/2)”。

sub-QCIF 128 96 64 48
QCIF 176 144 88 72
CIF 352 288 176 144
4CIF 704 576 352 288
16CIF 1408 1152 704 576

3 D1

  D1 是數字電視系統顯示格式的標準,共分爲以下5種規格:
  D1:480i格式(525i):720×480(水平480線,隔行掃描),和NTSC模擬電視清晰度相同,行頻爲15.25kHz,相當於我們所說的4CIF(720×576)。
  D2:480P格式(525p):720×480(水平480線,逐行掃描),較D1隔行掃描要清晰不少,和逐行掃描DVD規格相同,行頻爲31.5kHz。
  D3:1080i格式(1125i):1920×1080(水平1080線,隔行掃描),高清放鬆採用最多的一種分辨率,分辨率爲1920×1080i/60Hz,行頻爲33.75kHz。
  D4:720p格式(750p):1280×720(水平720線,逐行掃描),雖然分辨率較D3要低,但是因爲逐行掃描,市面上更多人感覺相對於1080I(實際逐次540線)視覺效果更加清晰。不過個人感覺來說,在最大分辨率達到1920×1080的情況下,D3要比D4感覺更加清晰,尤其是文字表現力上,分辨率爲1280×720p/60Hz,行頻爲45kHz。
  D5:1080p格式(1125p):1920×1080(水平1080線,逐行掃描),目前民用高清視頻的最高標準,分辨率爲1920×1080P/60Hz,行頻爲67.5KHZ。
  其中D1 和D2標準是我們一般模擬電視的最高標準,並不能稱的上高清晰,D3的1080i標準是高清晰電視的基本標準,它可以兼容720p格式,而D5的1080P只是專業上的標準,並不是民用級別的,上面所給出的60HZ只是理想狀態下的場頻,而它的行頻爲67.5KHZ,目前還沒有如此高行頻的電視問世,實際在專業領域裏1080P的場頻只有24HZ,25HZ和30HZ。
  需要指出的一點是,D端子是日本獨有的特殊接口,國內電視幾乎沒有帶這種接口的,最多的是色差接口,而色差接口最多支持到D4,理論上肯定沒有HDMI(純數字信號,支持到1080P)的最高清晰度高,但在1920:1080以下分辨率的電視機上,一般也沒有很大差別。

五 圖像

1 像素點

  圖像都是由像素點組成的,而將像素點顯示到屏幕上,就是看到的屏幕圖像顯示內容。一般情況下,圖像的橫向和縱向包含的像素點的個數是一定的,而一般情況下所說的圖片大小就是指圖像的橫向和縱向的像素點個數的乘積。
  顯示分辨率(屏幕分辨率)是屏幕圖像的精密度,是指顯示器所能顯示的像素有多少。由於屏幕上的點、線和麪都是由像素組成的,顯示器可顯示的像素越多,畫面就越精細,同樣的屏幕區域內能顯示的信息也越多,所以分辨率是個非常重要的性能指標之一。可以把整個圖像想象成是一個大型的棋盤,而分辨率的表示方式就是所有經線和緯線交叉點的數目。顯示分辨率一定的情況下,顯示屏越小圖像越清晰,反之,顯示屏大小固定時,顯示分辨率越高圖像越清晰。

2 圖像分類

  二值圖像(binary image):即圖像上的每一個像素只有兩種可能的取值或灰度等級狀態,人們經常用黑白、B&W、單色圖像表示二值圖像。
  灰度圖:只包含一個通道的信息,而彩色圖通常包含三個通道的信息,單一通道的理解可以理解爲單一波長的電磁波,所以,紅外遙感,X斷層成像等單一通道電磁波產生的圖像都爲灰度圖,而且在實際中灰度圖易於採集和傳輸等性質的存在導致基於灰度圖像開發的算法非常豐富。灰度圖像經常是在單個電磁波頻譜如可見光內測量每個像素的亮度得到的,用於顯示的灰度圖像通常用每個採樣像素8位的非線性尺度來保存,這樣可以有256級灰度(如果用16位,則有65536級)。
  彩色圖像:每個像素通常是由紅®、綠(G)、藍(B)三個分量來表示的,分量介於(0,255)。

3 深度

  圖片是由一個個像素點構成的,所有不同顏色的像素點構成了一副完整的圖像,計算機存儲每個像素點佔用的位數:
  1 bit:用一位來存儲,那麼這個像素點的取值範圍就是0或者1,那麼我們看來這幅圖片是有黑白構成;
  4 bit:這個像素點的取值範圍爲 0 到 2 的4次方;
  8 bit:來存儲像素點的取值範圍爲 0 到 2 的8次方;
  以此類推,我們把計算機存儲單個像素點所用到的bit爲稱之爲圖像的深度。

4 通道

  24位圖片的取值範圍爲0到2的24次方,這個取值範圍是相當的龐大的,那怎麼根據圖片某像素的深度值來確定那一像素點的顏色呢?
  我們都知道顏色的三元素 Red, Green, Blue. 如果是深度爲24=3*8,我們剛好就可以用第一個8位存儲Red值,第二個存儲Green值,第三個存儲Blue值, 2的8次方剛好是255,所以我們一般看到的RGB值都是(0-255,0-255,0-255)這樣的值。如果用rgb來表示圖片的顏色值,我們稱這樣的圖片通道爲三。
  單通道:一個像素點只需一個數值表示,只能表示灰度;
  三通道:RGB模式,把圖像分爲紅綠藍三個通道,可以表示彩色,全0表示黑色
  四通道:在RGB基礎上加上alpha通道,表示透明度,alpha=0表示全透明

5 分辨率

  分辨率(Resolution)是指圖像的大小或尺寸,它的表達式爲:“水平像素數*垂直像素數”。攝像機成像的最大分辨率是由CCD或CMOS感光器件決定的。現在有些攝像機支持修改分辨率,是通過攝像機自帶軟件裁剪原始圖像生成的。

六 視頻

1 幀

  幀(fram):是影像中最小單位的單幅影像畫面,相當於電影膠片上的每一格鏡頭。一幀就是一副靜止的畫面,連續的幀就形成動畫,如電視圖象等。

2 幀數

  我們通常說幀數,簡單地說,就是在1秒鐘時間裏傳輸的圖片的幀數,也可以理解爲圖形處理器每秒鐘能夠刷新幾次,通常用fps(Frames Per Second)表示。每一幀都是靜止的圖像,快速連續地顯示幀便形成了運動的假象,還原了物體當時的狀態。高幀率可以得到更流暢動畫。每秒鐘幀數(fps)愈多,所顯示的動作就會愈流暢。一般來說,幀率設置爲25fps、30fps已經足夠。幀率使用“赫茲”( Hz)爲單位。

3 視頻編碼

什麼是視頻編碼?編解碼器和壓縮技術:https://www.jianshu.com/p/d06f0ee82d7f
H.264再學習 – 目前主流的幾種數字視頻壓縮編解碼標準(轉載):https://blog.csdn.net/qq_29350001/article/details/78225725

4 MJPEG

  MJPEG是24-bit的"true-color"影像標準,MJPEG的工作是將RGB格式的影像轉換成YCrCB格式,目的是爲了減少檔案大小,一般約可減少1/3~1/2左右;M-JPEG是一種基於靜態圖像壓縮技術JPEG發展起來的動態圖像壓縮技術,可以生成序列化的運動圖像。其主要特點是基本不考慮視頻流中不同幀之間的變化,只單獨對 某一幀進行壓縮,其壓縮倍數爲20~80倍,適合靜態畫面的壓縮,分辨率可從352×288到704×576;M-JPEG的主要缺點是壓縮效率低,MJPEG算法是根據每一幀圖像的內容進行壓縮,而不是根據相鄰幀圖像之間的差異來進行壓縮,因此造成了大量冗餘信息被重複存儲,存儲佔用的空間大到每幀8~15K字節,最好也只能做到每幀3K字節,但如果因此而採用高壓縮比則視頻質量會嚴重降低。

5 JPEG

  JPEG 是Joint Photographic Experts Group(聯合圖像專家小組)的縮寫,是第一個國際圖像壓縮標準。JPEG圖像壓縮算法能夠在提供良好的壓縮性能的同時,具有比較好的重建質量,被廣泛應用於圖像、視頻處理領域。
  優點:攝影作品或寫實作品支持高級壓縮;利用可變的壓縮比可以控制文件大小;支持交錯(對於漸近式JPEG文件);廣泛支持Internet標準。
  缺點:有損耗壓縮會使原始圖片數據質量下降;當您編輯和重新保存JPEG文件時,JPEG會混合原始圖片數據的質量下降。這種下降是累積性的;JPEG不適用於所含顏色很少、具有大塊顏色相近的區域或亮度差異十分明顯的較簡單的圖片。

6 MPEG

  MPEG全稱是Moving Pictures Experts Group(動態圖象專家組),是國際標準化組織(ISO)成立的專責制定有關運動圖像壓縮編碼標準的工作組,所制定的標準是國際通用標準,叫MPEG標準。

7 MPEG4

  MPEG4之優勢在於其壓縮比(最大可達4000:1),低位元速率,較少之核心程式空間,加強運算功能,及強大之通訊應用整合能力,己成爲影音數位視訊產業,最重要之功能及標準格式。

七 H264

1 概述

  H.264是國際標準化組織(ISO)和國際電信聯盟(ITU)共同提出的繼MPEG4之後的新一代數字視頻壓縮格式。

  1. 低碼率(Low Bit Rate):和MPEG2和MPEG4 ASP等壓縮技術相比,在同等圖像質量下,採用H.264技術壓縮後的數據量只有MPEG2的1/8,MPEG4的1/3。
  2. 高質量的圖像:H.264能提供連續、流暢的高質量圖像(DVD質量)。
  3. 容錯能力強:H.264提供瞭解決在不穩定網絡環境下容易發生的丟包等錯誤的必要工具。
  4. 網絡適應性強:H.264提供了網絡抽象層(Network Abstraction Layer),使得H.264的文件能容易地在不同網絡上傳輸(例如互聯網,CDMA,GPRS,WCDMA,CD MA2000等)。

2 profile與level概念

  簡單理解就是H264有多個版本,版本越高編碼效率和壓縮率就越高,對應的版本是Profile。從低到高分別爲:Baseline、Main、High;在相同配置情況下,High profile(HP)可以比Main profile(MP)節省10%的碼流量,比MPEG-2 MP節省60%的碼流量,具有更好的編碼性能。(這是個普遍認可的一組數據)。
  每個level都規定了一組對標準中語法成員(syntax element)所採用的各種參數值的限制。在給定的profile下,level通常與解碼器的處理能力和內存容量相對應。每一個檔次設置不同的參數(如取樣速率、圖像尺寸、編碼比特率等),得到對應的編解碼器性能的不同level。
  H.264有四種畫質級別,分別是BP、EP、MP、HP:
  1、BP-Baseline Profile:基本畫質。支持I/P 幀,只支持無交錯(Progressive)和CAVLC;
  2、EP-Extended profile:進階畫質。支持I/P/B/SP/SI 幀,只支持無交錯(Progressive)和CAVLC;
  3、MP-Main profile:主流畫質。提供I/P/B 幀,支持無交錯(Progressive)和交錯(Interlaced),也支持CAVLC 和CABAC 的支持;
  4、HP-High profile:高級畫質。在main Profile 的基礎上增加了8x8內部預測、自定義量化、無損視頻編碼和更多的YUV 格式;
  想要說明H.264 HP與H.264 MP的區別就要講到H.264的技術發展了。JVT 於2003年完成H.264基本部分標準制定工作,包含Baseline profile、Extended profile和Main profile,分別包括不同的編碼工具。之後JVT又完成了H.264 FRExt(即:Fidelity Range Extensions)擴展部分(Amendment)的制定工作,包括High profile(HP)、High 10 profile(Hi10P)、High 4:2:2 profile(Hi422P)、High 4:4:4 profile(Hi444P)4個profile。
  H.264 Baseline profile、Extended profile和Main profile都是針對8位樣本數據、4:2:0格式的視頻序列,FRExt將其擴展到8~12位樣本數據,視頻格式可以爲4:2:0、4:2:2、4:4:4,設立了High profile(HP)、High 10 profile(Hi10P)、High 4:2:2 profile(Hi422P)、High 4:4:4 profile(Hi444P)4個profile,這4個profile都以Main profile爲基礎。
  在相同配置情況下,High profile(HP)可以比Main profile(MP)節省10%的碼流量,比MPEG-2 MP節省60%的碼流量,具有更好的編碼性能。根據應用領域的不同,Baseline profile多應用於實時通信領域,Main profile多應用於流媒體領域,High profile則多應用於廣電和存儲領域。

八 碼率

  視頻碼率就是數據傳輸時單位時間傳送的數據位數,一般我們用的單位是kbps即千位每秒。通俗一點的理解就是取樣率,單位時間內取樣率越大,精度就越高,處理出來的文件就越接近原始文件。對於場景變化的真實場景,圖像質量穩定,編碼碼率會波動;編碼碼率穩定,圖像質量會波動。以 H.264 編碼爲例,通常圖像 Qp 越低,圖像的質量越好,碼率越高;圖像 Qp 越高,圖像質量越差,碼率越低。
  但是文件體積與取樣率是成正比的,所以幾乎所有的編碼格式重視的都是如何用最低的碼率達到最少的失真,圍繞這個核心衍生出來的cbr(固定碼率)與vbr(可變碼率),都是在這方面做的文章,不過事情總不是絕對的,舉例來看,對於一個音頻,其碼率越高,被壓縮的比例越小,音質損失越小,與音源的音質越接近。

1 CBR

  CBR(Constant Bit Rate)以恆定比特率方式進行編碼,有Motion發生時,由於碼率恆定,只能通過增大QP來減少碼字大小,圖像質量變差,當場景靜止時,圖像質量又變好,因此圖像質量不穩定。這種算法優先考慮碼率(帶寬)。
  這個算法也算是碼率控制最難的算法了,因爲無法確定何時有motion發生,假設在碼率統計窗口的最後一幀發生motion,就會導致該幀size變大,從而導致統計的碼率大於預設的碼率,也就是說每秒統計一次碼率是不合理的,應該是統計一段時間內的平均碼率,這樣會更合理一些。
  在流式播放方案中使用CBR編碼最爲有效。使用CBR編碼時,比特率在流的進行過程中基本保持恆定並且接近目標比特率,始終處於由緩衝區大小確定的時間窗內。CBR編碼的缺點在於編碼內容的質量不穩定。因爲內容的某些片段要比其他片段更難壓縮,所以CBR流的某些部分質量就比其他部分差。此外,CBR編碼會導致相鄰流的質量不同。通常在較低比特率下,質量的變化會更加明顯。

2 VBR

  當計劃提供內容供用戶下載、將內容在本地播放或者在讀取速度有限的設備(如CD或DVD播放機)上播放時,請使用VBR編碼。(計劃流式播放內容時也可以採用峯值VBR編碼模式)當 編碼內容中混有簡單數據和複雜數據(例如,在快動作和慢動作間切換的視頻)時,VBR 編碼是很有優勢的。使用VBR編碼時,系統將自動爲內容的簡單部分分配較少的比特,從而留出足量的比特用於生成高質量的複雜部分。這意味着複雜性恆定的內 容(例如新聞播音)不會受益於VBR編碼。對混合內容使用 VBR 編碼時,在文件大小相同的條件下,VBR編碼的輸出結果要比CBR編碼的輸出結果質量好得多。在某些情況下,與CBR編碼文件質量相同的VBR編碼文件,其大小可能只有前者的一半。
  VBR(Variable Bit Rate)動態比特率,其碼率可以隨着圖像的複雜程度的不同而變化,因此其編碼效率比較高,Motion發生時,馬賽克很少。碼率控制算法根據圖像內容確定使用的比特率,圖像內容比較簡單則分配較少的碼率(似乎碼字更合適),圖像內容複雜則分配較多的碼字,這樣既保證了質量,又兼顧帶寬限制。這種算法優先考慮圖像質量。

3 CVBR

  CVBR(Constrained VariableBit Rate),這樣翻譯成中文就比較難聽了,它是VBR的一種改進方法。但是Constrained又體現在什麼地方呢?這種算法對應的Maximum bitRate恆定或者Average BitRate恆定。這種方法的兼顧了以上兩種方法的優點:在圖像內容靜止時,節省帶寬,有Motion發生時,利用前期節省的帶寬來儘可能的提高圖像質量,達到同時兼顧帶寬和圖像質量的目的。這種方法通常會讓用戶輸入最大碼率和最小碼率,靜止時,碼率穩定在最小碼率,運動時,碼率大於最小碼率,但是又不超過最大碼率。
  一般情況下,合成相同質量的節目時,採用CBR編碼方式時節目合成時間會短一些,但文件的長度會大一些(即相同時長的節目會佔用更多的空間或者相同的空間只能容納更短的節目)。
  一臺Intel雙核805D(2.66GHz)、1.5GB內存、ATI X550獨立256MB顯示卡、300GB並口硬盤、不超頻的情況下,在Premiere Pro 2.0中合成一段54分鐘的DVD節目,採用CBA編碼方式,耗時約90分鐘,生成的文件約3.7GB;採用VBA二次編碼方式,耗時約150分鐘,生成 的文件約2.7GB。

九 參考連接

H264 Profile對比分析:https://blog.csdn.net/matrix_laboratory/article/details/72764621
HEVC/H.265理論知識(2)——profile、level、tier:https://blog.csdn.net/NB_vol_1/article/details/53288587
數字視頻編解碼基礎知識大全:https://blog.csdn.net/sunnylgz/article/details/7749136
視頻圖像傳輸與顯示(2)——彩色模擬電視廣播制式NTSC、PAL和SECAM:https://blog.csdn.net/hit_wzj/article/details/50360306
視頻監控行業常用的幾種分辨率(CIF/QCIF/DCIF/D1/HALF D1)對比解釋:https://blog.csdn.net/LEON1741/article/details/79195769

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章