圖像和視覺理論基礎

  從本節開始,我對圖像處理的理論基礎過一遍。這裏的內容都是老師的筆記,我搬運於此,僅此而已。

  首先是圖像和視覺基礎,主要分爲視覺基礎,成象基礎,圖像基礎:

  • 視覺基礎:人眼與亮度視覺;顏色視覺
  • 成象基礎:成模型;成變換;採樣和量化
  • 圖像基礎:像素間聯繫;圖像運算;圖像座標變換;圖像格式

1,視覺基礎

1.1  人眼與亮度視覺

  人眼是人類視覺系統的重要組成部分,由晶狀體和視網膜組成。晶狀體相當於光學鏡頭(但是要靈活得多),視網膜相當於膠片。視網膜表面分佈着許多光接收細胞,這些細胞負責接受光的能量並形成視覺圖案。

   光接受細胞有兩種:錐細胞和柱細胞。錐細胞在亮度較高時活躍,可以分辨光的顏色,但數量較小;柱細胞對低亮度較爲敏感,不感受顏色,只提供視野的整體信息,這就是爲什麼人眼在天色較暗時看到的物體都是黑白剪影的原因。

  由於數字圖像是以亮度點集合的形式顯示的,眼睛區分不同亮度的能力在表達圖像處理結果時是很重要的。

  人的視覺系統能夠適應的光強度級別範圍是很寬的。從夜視閾值到強閃光約有1010量級。但是人的視覺系統並不能同時在這麼大的範圍工作,確切的說,它是利用改變其整個靈敏度來完成這一大變動的,這就是所謂的亮度適應現象。與整個適應範圍相比,能同時鑑別的光強度級的總範圍很小。

   在一定的條件下,一個視覺系統當前的靈敏度叫做亮度適應級。 人眼在某一時刻所能感受到的主觀亮度範圍是以此適應級爲中心的一個小範圍。

1.2  顏色視覺

  1,RGB模型(面向彩色顯示器或打印機)

   視覺三基色假說:  C = R + G + B

  (其中波長分別是:R: 700nm    G: 546.1nm    B: 435.8 nm)

  視網膜錐細胞感紅,感綠,感藍色素,利用三基色疊加可產生光的三補色:

  品紅:紅+藍    藍綠:綠+藍   黃:紅+綠

   2,RGB彩色空間示意圖:

   3,區分顏色的三種基本特徵量

  • 輝度:輝度與物體的反射率成正比
  • 色調:是與混合光譜中主要的光的波長相聯繫的
  • 飽和度:與色調的純度有關,純光譜色是完全飽和的,隨着白光的加入飽和度逐漸減少。

  色調和飽和度合起來稱爲色度。顏色可用輝度和色度共同表示。爲組成某種顏色所需的紅、綠、藍的量稱爲3個刺激量,用X,Y,Z表示。從而,一種顏色可用它的3個色系數表示,分別爲:

  1931年,國際照度委員會(CIE)制定了一個色度圖,用組成某種顏色的三原色的比例來規定這種顏色(如圖):

   色度圖中,邊界上的點代表純顏色,移向中心表示混合的白光增加而純度減少。到中心點C處各種光譜能量相等而顯爲白色,此處純度爲零。某種顏色的純度一般稱爲該顏色的飽和度。

  色度圖中,連接任2端點的直線上的點表示由這2端點的顏色相加而組成的一種顏色。3點可組成一個三角形。

1.3  其他彩色模型(NTSC,YCbCr,HSI)

  (1)NTSC(National Television System Committee)彩色制式用於電視系統,主要應用於日本、美國,加拿大、墨西哥等國。其主要優勢是灰度信息和彩色信息是分離的,所以同一個信號既可以用於彩色電視機,也可以用於黑白電視機。

  在NTSC制式中,圖像數據由亮度(Y)、色調(I)和飽和度(Q)三部分組成。亮度分量描述灰度信息,其他兩個分量攜帶電視信號的彩色信息。

  YIQ和RGB的轉換關係:

 關於NTSC和PAL

  • NTSC和PAL屬於全球兩大主要的電視廣播制式,但是由於系統投射顏色影像的頻率而有所不同。
  • NTSC(National Television System Committee)標準主要應用於日本、美國,加拿大、墨西哥等等
  • PAL(Phase Alternating Line),主要應用於中國,香港、中東地區和歐洲一帶。
  • NTSC和PAL,這兩種制式是不能互相兼容。
  • PAL制式和NTSC的分辨率也有所不同,PAL制式使用的是720×576,而NTSC制式使用的是760×480,在分辨率上PAL稍稍佔有優勢。但PAL制式每秒幀數爲25幀,NTSC制式每秒幀數爲30幀!

  (2)YCbCr 彩色空間廣泛應用於數字視頻。在這種格式中,亮度信息也用單個分量Y來表示,彩色信息用兩個色差分量Cb和Cr來存儲。分量Cb是藍色分量和一個參考值的差,分量Cr是紅色分量和一個參考值的差。

  RGB轉化爲YCbCr的變換:

   (3)HSI模型(面向彩色處理,如動畫中的彩色模型)

  (H——色調(hue) S——飽和度(saturation) I——密度(intensity,對應成像亮度和圖像灰度))

  這個模型有兩個特點:

  • (1)I分量與圖像的彩色信息無關;
  • (2)H和S分量與人感受顏色的方式是緊密相連的。

  上述特點使得HSI模型非常適合於藉助人的視覺系統來感知彩色特性的圖像處理算法。

  對色點P,H的值對應指向該店的矢量與R軸的夾角。S與指向該點的矢量長成正比,越長越飽和。I的值時沿1根通過三角形中心並垂直於三角形平面的支線來測量的。從紙面出來越多越白,進入紙面越多越黑。

 1.4 RGB與HSI之間的轉換

  從RBG轉換到HSI(Smith1978)

   從HSI轉換到RBG

  設S,I, R, G, B的值均在[0, 1] 之間,則有:

1.5 例題

  彩色圖像的R,G,B和H, S, I 各分量的圖示

  圖2.1 一幅彩色圖像的R、G、B和H、S、I各分量 (a) (b) (c) 分別爲R、G、B分量 (d) (e) (f) 分別爲H、S、I分量

  下面自己寫個代碼,展示一個照片。

  原照片如下:

 

   結果如下:

 

   代碼如下:

import cv2
import numpy as np

photo_path = 'test.jpg'
# read origin image
image_bgr = cv2.imread(photo_path)
b, g, r = cv2.split(image_bgr)

# BGR convert RGB
image_hsi = cv2.cvtColor(image_bgr, cv2.COLOR_BGR2HSV)
h, s, i = cv2.split(image_hsi)
res1 = np.column_stack((b, g, r))
res2 = np.column_stack((h, s, i))
res = np.row_stack((res1, res2))
cv2.imshow('allres', res)
cv2.waitKey(0)
cv2.destroyAllWindows()

  

2,成象基礎

1,成象模型

  圖像代表一個 2-D 的亮度函數,記爲 f(x, y)。在特定的座標(x, y)處,f 的值或幅度是一個正的標量,其物理意義由圖像源決定。當一幅圖像從物理過程產生時,它的值正比於物理源的輻射能量(如電磁波),因此,f(x, y) 一定是非零和有限的,這就是:

   函數f(x, y) 可由兩個量來表徵:(1)入射到觀察場景的光源的量;(2)場景中物體反射光的量。相應的稱爲入射分量和反射率,並分別表示爲  i(x, y) 和 r(x, y)。因爲 f(x, y)  與  i(x, y) 和 r(x, y) 都成正比,所以可以認爲是由這兩個函數相乘得到的:

   其中:

   反射分量限制在 0 (全吸收)和 1(全反射)之間。 i(x, y) 的性質取決於照射源,而 r(x, y) 取決於成像物體的特性。

   沒有顏色的光叫消色或單色光。這種光的屬性是它的強度或大小。灰度級這一詞彙通常用來描述單色光強度,因爲它的範圍從黑到灰,最後到白。

  單色圖像 f 在座標 (x, y) 處的強度稱爲圖像在那一點的灰度值,即:

   Lmin 的要求僅僅是正的,Lmax的要求爲有限。

   區間[Lmin,  Lmax] 稱爲灰度級。實際常常令該區間爲 [0, L], l=0爲黑,l=L在灰度級中爲白,所有中間值時從黑到白的各種灰度值。

2,成像變換

  攝像機座標系統 xyz 中的如下平面與 xy 平面重合,光學軸沿 z 軸。

  圖像平面的中心處於原點,鏡頭中心的座標是 (0, 0, λ), λ是鏡頭的焦距。假設攝像機座標系統與世界座標系統 xyz 平行。

   設(x, y, z)是3-D 空間中任意點的世界座標。Z >  λ ,即所有客觀場景中感興趣的點都在鏡頭的前面。點 (x, y, z)與其投影到圖像平面的座標間的關係爲:

 3,採樣和量化

  圖像函數 f(x, y) 在空間和取值(灰度)上必須數字化才能被計算機處理。

3.1,均衡採樣和量化

  圖像的採樣:空間座標(x,  y)的數字化被稱爲圖像採樣,確定水平和垂直方向上的像素個數 N,  M

   圖像採樣的形式化定義

  設Z表示整數集合,則採樣過程:將xy平面分配到一個網格上,且每一個網格中心的座標是一個笛卡爾乘積ZxZ的元素對,即所有有序元素對(m, n)的集合,其中m和n屬於整數集合Z。

 3.2 圖像的量化

  取值的數字化被稱爲圖像灰度級量化

  量化處理:將 f 映射到Z的處理(均勻量化,最佳量化)

  Z 的最大取值,確定像素的灰度級數 G = 2k,如256

  存儲 1 副數字圖像所需的位數(bit)

   當一幅圖像有2k 灰度級時,通常稱該圖像是 k 比特圖像。

空間分辨率與圖像質量

幅度分辨率與圖像質量

3.3 採樣分辨率和灰度級與圖像質量之間的關係(Huang[1965] 實驗):

實驗方法 :

  • 選取一組細節多少不同的、不同N、M、k的圖象
  • 讓觀察者根據他們的主觀質量感覺給這些圖象排序

實驗結論 :

  • 隨着採樣分辨率和灰度級的提高,主觀質量也提高。在極少數情況下,固定N和M,減少k能改進質量。最有可能的原因是減少k常可增加圖像看起來的反差。
  • 對有大量細節的圖像常只需很少的灰度級數就可以較好的表示。k爲常數的一系列圖像主觀看起來可以有較大的差異。

3.4 非均勻採樣

  採樣自適應的採樣方法來改善圖像質量

  • 在尖銳的灰度過濾區採樣較密的採樣
  • 在平滑區域採樣較稀採樣

3,圖像基礎

1,像素間聯繫

  1,像素的鄰域:位於座標(x,  y)的一個像素 p 有 4 個水平和垂直的相鄰像素,其座標由下式給出:

   這個像素集稱爲 p 的四鄰域,用 N4(p) 表示。每個像素距(x, y)一個單位距離,如果(x,  y)位於圖像的邊界,則 p 的某一個鄰域像素位於圖像的外部。

   p 的四個對角近鄰像素有如下座標:

   並用 ND(p) 表示。與四個鄰域點一起把這些點叫做 p 的 八鄰域。用 N8(p) 表示。與前邊一樣,如果(x, y)位於圖像的邊界,則 ND(p)  和  N8(p) 中的某些點落入圖像的外邊。

 2,連接性,連通性

  像素間的連通性是一個基本概念,它簡化了許多數字圖像概念的定義,如區域和邊界。爲了確定兩個像素是否連接,必須確定他們是否相鄰及他們的灰度值是否滿足特定的相似性準則(或者說,他們的灰度值是否相等)。例如,在具有 0 1 值的二值圖像中,兩個像素可能是4-近鄰像素,但是,僅當他們具有同一灰度值時才能說是連接的。

  令 V 表示定義連接的灰度值集合。在二值圖像中,如考慮灰度值爲1的像素之間的連通性,則V={1}。在灰度圖像中,考慮灰度值在8~16之間像素的連通性,則 V={8, 9, ..., 15, 16}

  • 4——連接:2個像素 p 和 r 在V中取值且 r 在 N4(p) 中。
  • 8——連接:2個像素 p 和 r 在V中取值且 r 在 N8(p) 中。

   m——連接(混合連接):2個像素p 和 r 在 V 中取值且滿足下麪條件之一:

  • (i)  r在N4(p)中;
  • (ii) r在ND(p)中且集合N4(p)∩N4(r)沒有V中的值。

   混合連接是8——連接的改進。混合連接的引入是爲了消除採用8——連接常常發生的二義性。例如下圖中(a)對於 V={1} 所示的像素安排。位於(b)上不的三個像素顯示了多重(二義性) 8——連接,如虛線所指的那樣。這種二義性可以通過 m——連接消除,如(c)所示:

  如果一個象素p與另一個象素q相連接,則他們相毗鄰。

  如果圖象子集S1中的某些象素與S2中的某些象素毗鄰,則SI和S2是毗鄰的。

  從具有座標(x,y)的象素p到具有座標(s,t)的象素q的通路是由一系列特定象素組成的,這些象素具有座標 (x0,y0),(x1,y1)….(xn,yn) 這裏(x0,y0)=(x,y), (xn,yn)=(s,t),並且象素(xi,yi)與(xi-1,yi-1)毗鄰。在這種情況下,n是通路的長度。

  令S代表一幅圖象中象素的子集.

  如果在S中p,q象素之間存在一個通路,則說兩個象素p和q在S中是連通的。

  對於S中的任何象素p,S中連通到該象素的象素集叫做S的連通分量(組元,component)

3,距離量度

  對於像素p, q 和r,  其座標分別爲 (x, y) , (s , t) 和(v, w), 如果:

  • (a)   D(p,q) ≥ 0,  D(p,q)=0,  當且僅當 p=q
  • (b)  D(p,q) = D(q,p)
  • (c)  D(p,r) ≤ D(p,q) + D(q,r)  則D是距離量度函數。

  p和q的歐式距離定義如下:

   對於距離量度,距點(x, y)的距離小於或等於某一值的像素是:中心在(x, y)半徑爲 d 的圓平面。

  p和q間的D4距離(城市街區距離)如下式定義:

   在這種情況下,距(x, y)的D4距離小於或等於某一值d 的像素形成一箇中心在 (x,y)的菱形。

  例如,距(x,  y)的D4 距離小於或等於 2 的像素形成固定距離的下列輪廓:

   D4 = 1 的像素是(x,y)的4鄰域。

  p和q的D8距離(也叫棋盤距離)定義爲下式:

   在這種情況下,距(x,  y)的D8 距離小於或等於某一值 d 的像素形成中心在(x,  y)的正方形。

  例如,距點(x, y)(中心點)的D8距離小於或等於2的像素形成下面固定距離的輪廓:

   D8 = 1的像素是(x, y)的8鄰域。

   注意:p和q之間的D4和D8距離與任何通路無關, 因爲這些距離僅與點的座標有關。然而,如果選擇考慮m-連通,則兩點間的Dm距離用點間最短的通路定義。在這種情況下,兩象素間的距離將依賴於沿通路的象素值以及它們的鄰點值。

4,圖像運算(算術運算,邏輯運算)

4.1 算術運算

  圖像的算術運算分爲加法,減法,乘法,除法;圖像的算術運算時逐像素進行的。一般用於灰度圖像。

  圖像像素的座標也可以進行算術運算(如:圖像平移,旋轉與縮放等)

4.2  圖像的加法運算

  加法運算的定義:

   主要應用舉例:

  • 去除“疊加性”噪聲
  • 生成圖像疊加效果

去除“疊加性”噪聲

  設有一幅混有噪聲的圖 g(x, y) 是由原始圖 f(x, y) 和噪聲圖 e(x, y)疊加而成,即:

   這裏假設每個座標點(x,  y)上的噪聲都不相關且均值爲零。我們處理的目標就是通過加入一系列噪聲圖像{ gi(x, y)} 來減少噪聲。如果噪聲符合上述限制,若對 M 幅不同的圖像取平均得:

   可以證明:

   可見,隨着平均圖數量 M 的增加,噪聲在每個像素位置(x, y)的影響逐步減少。

  例2.3.1 :用圖像平均消除隨機噪聲(練習)

 圖像疊加

  對於兩個圖像 f1(x, y) 和 f2(x, y)的加權組合:

   其中 alpha + beta = 1

  得到各種圖像合成的效果,也可以用於兩張相片的銜接。

4.3  減法運算

  減法運算的定義:

   注意應用:

  • 去除不需要的疊加性圖案
  • 檢測同一場景兩幅圖像之間的變化

去除不需要的疊加性圖案

  設:背景圖像 b(x, y) ,前景背景混合圖像 f(x, y):

   g(x,  y) 爲去除了背景的圖像

檢測同一場景兩幅圖像之間的變化

  設:時間1 的圖像爲 T1(x,  y)  時間2的圖像爲T2(x, y)

   如:運動檢測,運動估計等

 4.4 邏輯運算

  圖像像素之間的邏輯運算

  1. 求反
  2. 異或,或

  邏輯運算時對二值圖像的像素值進行處理的一種圖像運算。

求反的定義:

   主要應用

  • 獲取一個陰圖像(反色圖像)
  • 獲取一個子圖像的補圖像

獲取陰圖像

子圖像的補圖像

 異或運算的定義

   (相同的輸出0, 相異的輸出1)

  獲得相交子圖像

   黑色代表1,白色代表0。

或運算

   合併子圖像

   黑色代表1,白色代表0

4.5  圖像的非集合變換

非幾何變換(針對圖像像素灰度)定義:

  對於原圖像 f(x, y) ,灰度值變換函數 T 唯一確定了非幾何變換:

 

 

   g(x, y) 是目標圖像,圖像沒有幾何位置的改變,只是圖像的灰度取值發生了變化。

  對於彩色原圖像 f(x, y),顏色值變換函數:

 

 

4.6  基於模板的圖像運算(T爲卷積模板)

  基於模板的圖像運算分以下三方面學習:

  • 模板的定義(模板大小,模板係數)
  • 模板運算的定義
  • 模板運算距離:均值變換

4.7  模板的定義(二維濾波器的係數構成模板)

  所謂模板就是一個稀疏矩陣,模板大小通常是奇數,如3*3   5*5  7*7  等。

  模板係數:矩陣的元素:

4.8  模板運算的定義

  對於某圖像的子圖像:

   像素Z5的模板運算公式爲:

4.9  模板運算例子:均值變換(均值濾波)

  模板係數: Wi = 1/9

  計算公式 :R = (z1 + z2 + ... + z9) / 9

 4.10  灰度級變換(點運算)

  定義:對於輸入圖像 f(x, y),灰度級變換 T 將產生一個輸出圖像 g(x, y),且 g(x, y) 的每一個像素值,都是由 f(x, y) 的對應輸入像素點的值決定的,與其鄰域點的取值無關。

   灰度級變換(點運算)的實現

  通過灰度級映射關係 R = T(r) (R,r取值範圍爲0~255)來試下灰度級變化。輸入像素值與輸出像素之間的映射關係可以通過查表來實現。

  因此灰度級變換也被稱爲LUT(look  Up Table)變換。

例如:圖像求反

   如:對比度拉伸與動態範圍壓縮

   根據圖像直方圖(圖像的灰度統計分佈)改變圖像質量

5,圖像座標變換

  圖像座標變換分爲以下四個學習:

  • 1,平移變換
  • 2,放縮變換
  • 3,旋轉變換
  • 4,鏡像變換:水平鏡像,垂直鏡像

5.1  平移變換

  用平移量(X0,Y0)將具有座標爲(X,  Y)的點平移到新的點(X‘,Y’),可寫爲:

 

 

   用矩陣可以表示爲 v' = Tv

5.2 縮放變換

5.3  旋轉變換

  繞原點旋轉 alpha 度(逆時針),可表示爲:

 

 

 5.4  水平鏡像與垂直鏡像

 

 

6,圖像格式

6.1  調色板

  調色板是包含不同顏色的顏色表,每種顏色以紅,綠,藍三種顏色的組合來表示,圖像的每一個像素對應一個數字,而該數字對應調色板中的一種顏色。如某像素值爲1,則表示該顏色爲調色板的編號爲1的顏色。

  16色或256色 需要調色板。

  真彩色圖像的每個像素直接用R,G,B三個字節來表示顏色,不需要調色板。

6.2  圖像格式

  圖像格式指的時存儲圖像採用的文件格式。常用的圖像格式有:

  • (1) BMP(Bitmap)文件
  • (2) GIF(Graphics Interchange Format)文件
  • (3) TIFF(Tag Image File Format)文件
  • (4) PCX文件
  • (5) JPEG格式
  • (6) PSD格式
  • (7) PCD格式
  • (8) WMF矢量格式

BMP文件

  BMP文件是Microsoft Windows所定義的圖象文件格式,最早應用在Microsoft公司的Microsoft Windows窗口系統中。 BMP圖象文件的特點:

  ■ 該結構只能存放一幅圖象;

  ■ 只能存儲四種圖象數據:單色、16色、256色、真彩色

  ■ 圖象數據有壓縮和不壓縮兩種處理方式,壓縮方式有:RLE4和RLE8 ;

  ■ 調色板的數據存儲結構與文件頭的某些參數有關

BMP圖象文件的文件結構可分爲三部分:

  ■ 表頭;長度固定爲54個字節

  ■ 調色板;真彩色沒有調色板

  ■ 圖象數據。

GIF文件

  GIF文件是CompuServe公司爲了方便網絡用戶傳輸圖象數據而制定的一種圖象文件格式。 GIF圖象文件經常用於網頁的動畫、透明等特技製作。其特點爲:

  ■ 具有多元化結構,能夠存儲多幅圖象;

  ■ 調色板數據有通用調色板和局部調色板之分;

  ■ 採用LZW壓縮法;

  ■ 圖象數據一個字節存儲一點;

  ■ 文件內的各種圖象數據區和補充區多數沒有固定的數據長度和存放位置;

  ■ 圖象數據有順序排列和交叉排列兩種方式;

  ■ 最多隻能存儲256色圖象。

GIF圖象文件的文件結構一般由七個數據單元組成:

  ■ 表頭;

  ■ 通用調色板;真彩色沒有調色板

  ■ 圖象數據區以及四個補充區。

表頭和圖象數據區是文件不可缺少的單元,其它是可選內容。

TIFF文件

TIFF文件是Aldus公司與微軟公司共同開發設計的圖象文件格式。其特點爲:

  ■ 善於應用指針功能,能夠存儲多幅圖象;

  ■ 文件內數據區沒有固定的排列順序,但表頭必須在文件前端;

  ■ 可制定私人用的標識信息;

  ■ 除RGB模型外,還能接受CMYK、YcbCr等圖象牧式;

  ■ 可存儲多份調色板數據(數據類型和排列順序特殊);

  ■ 能提供多種不同的壓縮數據的方法;

  ■  圖象數據可分割成幾個部分進行分別存檔。

TIFF圖象文件主要由三部分組成:

  ■ 表頭;

  ■ 標識信息區;

  ■ 圖象數據區。

表頭和圖象數據區是文件不可缺少的單元,其它是可選內容。

PCX文件

PCX文件是Zsoft公司在20世紀80年代初期設計的,專用於存儲該公司開發的PC Paintbrush繪圖軟件所生成的圖象畫面數據。目前, PCX文件已成爲PC機上較爲流行的圖象文件。其特點爲:

  ■ 只能存放一幅圖象畫面;

  ■ 使用RLE壓縮方法進行數據壓縮;

  ■ PCX圖象文件有多個版本,能處理多種不同模式下的圖象數據;

  ■ 4色和16色可設定或不設定調色板選項;

  ■ 16色圖象數據可由一個或四個bit plane(顏色的RGB等級)來處理。

JPEG文件

  JPEG是由Joint Photographic Experts Group制定的圖象壓縮格式,其正式名稱爲“連續色調靜態圖象的數字壓縮和編碼”,是一種通用的靜態圖象壓縮編碼標準,可以用不同的壓縮比例對文件格式進行壓縮。 JPEG壓縮技術十分先進,它採用最少的磁盤空間來得到較好的圖象質量。

PSD格式

  PSD是Adobe公司開發的圖象處理軟件Photoshop中自建的標準圖象文件格式,由於Photoshop軟件被廣泛地應用,因而這種格式也很流行。

PCD格式

      PCD是KODAK公司所開發的Photo CD專用存儲格式,由於其文件特別大,不得不存在CD-ROM上,但其應用領域特別廣。

WMF矢量格式

  這是微軟公司開發的矢量圖形格式,在Office等軟件中得到了大量的應用。

總結

  1. 顏色視覺;
  2. 成象模型;
  3. 採樣和量化;
  4. 象素間聯繫;
  5. 圖象運算;
  6. 圖象座標變換;
  7. 圖象格式
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章