Efficient detection under varying illumination conditions and image plane rotations

摘要

本文主要研究了不同光照和姿態下的蘭伯曲面目標的檢測問題。我們提供了一種新的檢測方法,該方法通過對訓練集中少量圖像的不同光照進行建模;這將自動消除光照效果,允許快速的光照不變檢測,而不需要創建一個大型的訓練集。實驗證明,該方法很好地“適應”了之前關於在不同光照下建模物體外觀集的工作。在實驗中,即使在存在顯著陰影的情況下,在45範圍內的圖像平面旋轉和各種不同光照下,也能正確地檢測到目標。

1、簡介

姿態和光照的微小變化會產生物體外觀的巨大變化。在[9,16,19,20]中研究了不同類別幾何變換或不同視點下物體的識別。然而,這些方法並不能解決光照變化的問題,光照變化對物體的外觀有很強的影響。圖1所示爲同一面部表情、從同一視角拍攝的兩幅圖像。由於光照不同,這兩幅圖像有顯著的可變性。事實上,據觀察,在人臉識別中,由光照引起的變異性往往比由人的身份變化引起的變異性大。另一方面,視點的變化也會對目標的外觀產生戲劇性的影響。光照和位姿的變化會導致具有很高線性維數的複雜圖像集。在本文中,我們利用[3]的觀測和[9]的反人臉方法來檢測不同光照和姿態下的三維物體。反面方法提供了一個很有吸引力的解決方案,它通過在訓練集中對不同光照條件的影響進行建模;這將自動消除光照效果,允許快速光照不變檢測,而不需要創建一個大型的訓練集。

介紹了以下應用:

  1. 在不同的姿態和光照下,檢測一個沒有陰影的具有蘭伯式表面的物體。
  2. 在不同的姿態和光照下檢測具有蘭伯式表面的物體,並帶有附加的陰影。

在第一種情況下,成功地檢測了相當大的一類不同的姿態(360旋轉)。在第二種情況下,陰影的存在使得圖像採集更加複雜,但是算法仍然能夠正確地檢測45旋轉範圍內的目標。這些結果與之前的工作相比是有利的,在之前的工作中,通過單獨應用光照錐到44度斑塊[5]來實現對大範圍位姿變化的檢測。理論上,該算法要求物體是凸的,以排除投射陰影。然而,當不存在顯著的投射陰影時,對於非凸目標可以獲得良好的結果。

1.1、這篇文章的結構

第1.2節調查了有關照明變異性的相關工作。第二節重點介紹了反人臉算法在光照空間和光照錐上的應用,並給出了反人臉算法。在第3節中,我們使用了旋轉圖像的泰勒級數近似來減小訓練集的大小,第4節給出了實驗結果。

1.2、以前的工作

基於外觀的方法可以識別在特定姿勢和光線下的物體,如果它以前在類似的環境下被看到過:例如[14]。爲了將這些方法擴展到處理光照變化,學習階段需要使用大量不同光照下目標的圖像,這是低效的[13]。因此,用一種低維線性子空間來表示一個物體在不同光照下產生的一組圖像是非常流行的。特別是,在不附加陰影的情況下,改變光照條件下的三維朗伯曲面的圖像空間由三幅基礎圖像展開[2,7,11,15,18,21,23]。Koenderink和Van Doorn[10]將這些結果擴展到環境成分,從而產生了4D空間。環境光問題也被考慮在[22]。Belhumeur和Kriegman[3]證明了所有由光照變化(包括附加陰影(無投射陰影))產生的物體外觀都用三幅圖像表示的凸錐來描述。Georghiades等人將這種表示方法用於物體識別,然後擴展到姿態變化[5]。在這種方法中,每個“錐”都模擬了可見度球的一個44度的斑塊,因此在大姿態變化下的識別是通過計算到每個錐的距離來完成的,這比我們的方法的計算成本更高。Basri和Jacobs[1]以及Ramamoorthi和Hanrahan[17]提出了另一種嘗試,試圖找到蘭伯物體因光照而產生的圖像空間的低維表示。他們分析地表明,一個蘭伯對象的照明變異性可以非常接近地由一個9D線性子空間。該結果已應用於人臉識別中。Jacobs等人[8]提出了一種簡單的基於圖像比率梯度的圖像比較局部測度。該方法對不同光照條件下的人臉識別效果良好。值得一提的是,這種方法不需要訓練集;它只使用一個圖像。Chen等人[4]擴展了這項工作,利用圖像梯度分佈來開發圖像比較的光照不敏感測度。這種新方法在同一面部數據庫中產生了更好的結果。

2、光照不變檢測

在本節中,我們展示了與其他學習技術不同的是,[9]反人臉方法只需要少量的訓練圖像,就可以在不同的光照條件下識別物體,並且提供了一種非常快速的檢測算法。

2.1、Anti-faces簡短概述

[9]是一種新的檢測方法,在大量圖像集合的情況下,例如在大量線性變換下的正面人臉,或在不同視點下的三維物體,都能很好地進行檢測。調用應檢測到的圖像集合的多模板。該檢測問題通過依次應用非常簡單的濾波器(或檢測器)來解決,這些濾波器(或檢測器)作爲給定圖像(視爲向量)的內積,並滿足以下條件:

  1. 它們與多模板圖像的內積的絕對值較小。
  2. 它們是平滑的,這導致它們與“隨機圖像”的內積的絕對值很大;這是使探測器能夠從隨機圖像中分離出多模板的特徵。
  3. 它們以獨立的方式行動,這意味着它們的假警報不相關;因此,虛警率隨檢測器數目呈指數遞減。

檢測過程非常簡單:將圖像分類爲多模板iff的成員,其與每個檢測器的內積的絕對值小於某個(檢測器特定的)閾值。只有通過第一檢測器設定的閾值測試的圖像纔會被第二檢測器檢測,等等。這進而導致了一種非常快速的檢測算法。通常,ð1þdÞN操作要求N-pixel圖像進行分類,在d < 0:5。反人臉方法在圖像與某些檢測器的內積較小的情況下,將圖像分類爲所尋找的圖像集合(或多模板)。因此,如果這個集合可以用少量的基圖像的小系數線性組合來描述,那麼反人臉方法就可以只在基元素上進行訓練,從而得到一個非常高效的算法。這使得它是一個自然的候選,用於檢測在不同的光照下。

2.2、光照模型

下面的觀察[3,7,15,21]允許模型對象的外觀下廣泛的照明,而不是物理創建他們。下面的討論來自[3]。考慮一個具有朗伯反射函數的凸對象,它被一個單點光源在無窮遠處照射。讓是一個矩陣,其中每行反照率的乘積與內在指向單元表面正常的點對應於一個特定的圖像視爲一個矢量的像素大小n。讓表示產品光源強度的單位矢量的方向光源。得到的圖像由:

                                                           

設置爲零的像素對應於附着在陰影中的表面點。假設物體的凹凸度是爲了避免投射陰影。當物體的任何部分都沒有被陰影時,x處於一個三維子空間L,稱爲光照空間,由矩陣B張成的空間給出:

                                                         

因此,光照子空間可以由三個基圖像構造[7,15,21]。由[3]可知,任意數量的點光源在無窮遠處改變方向和強度,生成的凸蘭伯曲面的所有可能圖像的集合C可以表示爲:

                                                         

C是中的凸錐。此外,在[3]中還表明,錐C內的任何像都可以表示爲給定的極端射線的凸組合:

                                                        

其中

                                                        

在[3]中證明了陰影構型的數量最多爲,其中爲不同法線的數量,因此存在最多的極值射線。由於極限射線的數目有限,錐是多面體的。

光照子空間[6]方法提供了一種光照錐的構造方法。收集三個或更多的圖像對象(與一個固定的姿勢)在不同照明沒有陰影,和使用這些圖像來估計三維子空間照明單位長度L正常化的圖像,然後使用奇異值分解(SVD)來估計最優最小二乘意義上的三維正交基B。在[3]中證明了是確定子空間l的充分條件,然後從中利用方程計算確定照明錐C的極限射線。(4)和(5)。

2.3、反人臉方法在光照不變檢測中的應用

爲了擴展反臉處理光照變異性,我們需要找到少量的“基圖像”和相應的光滑檢測器[9],使:(a)經過歸一化後,不同的物體出現都可以用基圖像的線性組合來表示,組合係數較小。(B)探測器與基圖像有較小的內積。因爲(A),他們也會有小的內積與所有的物體外觀。這將在命題2.1中得到形式化。下面觀察[3]支持條件(A)。考慮一個具有朗伯反射函數的凸對象。

  1. 當物體的任何部分都沒有陰影時,其像位於由矩陣B張成的三維子空間L中;L可以由三個基圖像構成。
  2. 無限遠任意數量點光源下的圖像集爲Rn中的凸多面體錐,可以表示爲極值光線的凸組合。

爲了滿足這些條件,讓我們首先分析反人臉檢測器的正集(即檢測器接受的圖像集)。

                     

由命題2.1可知,如果將光照子空間的三幅基圖像作爲檢測器的訓練集,如果閾值選取得當,則檢測出整個光照子空間。如前所述,光照錐可以由係數爲非負的向量xij (Eq.(4))的線性組合表示。在實際應用中,照明錐的極限光線位於一個低維線性子空間附近。對於凸面物體,Basri和Jacobs[1]以及Ramamoorthi和Hanrahan[17]在理論上證實了這一觀察結果。因此,由最後的觀察和命題2.1可知,如果檢測器是根據近似光照錐的低維子空間的基向量訓練,如果閾值選擇正確,檢測器就會檢測到光照錐。

2.4、不同姿態和光照下的檢測(無陰影)

我們在上一節中展示了,如果我們想使用反面檢測固定姿態下的物體,我們應該在光照子空間的三個基礎圖像上訓練檢測器,這將允許檢測該子空間中的所有圖像。該方法可以很容易地擴展到不同的位姿,通過在包含光照子空間的基礎圖像的線性子空間上訓練檢測器,該子空間對應於所有訓練位姿。下面的僞代碼描述了一個凸目標在不同光照和姿態下的檢測算法,當目標的任何部分都沒有陰影時。

1. 求出每個目標位置樣本的光照子空間的三個基圖像:

(i)在不帶陰影的情況下,收集物體的三張或三張以上的圖像。

(ii)將圖像歸一化到單位長度,應用奇異值分解,取與最大特徵值對應的三個特徵向量。

(第一步將會產生3M個圖像,其中M是訓練姿勢的數量。)

2、取代訓練集

包含由以前步驟產生的3M張圖像,通過將特徵向量和特徵值對應起來,這獲得了99%的能量。(顯然k取決於這個線性子空間的維數)

3、使用新的訓練集發現反臉檢測器。

4、對每個檢測器d,將閾值選擇爲,其中,i=1,...,k

從命題2.1可以得出這樣一個探測器的正集包含能量。用於訓練檢測器的所有目標位置的整個照明空間。

2.5、不同姿態和光照下的檢測(允許陰影)

一個類似的想法可以用於檢測各種姿態的照明錐。這裏我們找到在每個姿勢下形成照明錐的極端光線,然後在包含所有訓練姿勢的照明錐並集的線性子空間上訓練檢測器。下面的僞代碼描述了一種在無限遠的位置檢測任意數量的點光源和變化姿態下的凸對象的算法。允許附加陰影。

1. 求每個樣本物體位置的照明錐:

(i)在不帶陰影的情況下,收集物體的三張或三張以上的圖像。

(ii)將圖像歸一化到單位長度,利用SVD在最小二乘意義上估計出最佳的三維正交基

(iii)從用方程式計算向量。(4)和(5)。

2、爲了獲得對應99%能量特徵值對應的特徵向量,對所有的目標姿勢,應用SVD來收集向量的集合。(是線性子空間的基包含所有姿態的照明錐的聯合)

3、使用作爲訓練集來發現反臉檢測器。

4、對每個檢測器d,將閾值選擇爲,其中,i=1,...,k

從命題2.1可以得出,對於所有的物體位置,檢測器的正樣本都近似於光照錐。正如2.1節中提到的,極端射線的數量是m(m-1),其中m<=n是不同法線的數量,通常很大,因此構建照明錐所需的極端射線數量會非常大。因此,我們採用[6]的採樣方法,直接對光源方向的空間進行採樣,而不是通過式(4)(5)產生樣本。

3、增量構成近似

與大多數檢測和識別技術一樣,反人臉方法要求對多個模板進行近距離採樣。我們證明,對於光照的可變性,這一限制可以通過使用少量的基礎圖像來表示圖像集來克服。對於姿態變化沒有這樣的表示,但是對於小範圍的圖像平面旋轉(大約5度),可以使用泰勒展開估計物體的外觀。讓圖像;那麼旋轉後的圖像是x,h和\theta的函數。

       

對一個很小的\theta,

        

其中,

          

總之,一幅圖像I旋轉一個角度\theta可以近似爲:

         

反臉檢測器應該在I上訓練,並且。這確保了檢測器將產生小的結果,我在圖像平面上以小的能量旋轉。在圖像平面旋轉的情況下,所提出的方法可以併入第2.3節和第2.4節中描述的算法。5度範圍可以用公式(6)來覆蓋,而不是爲每個角度創建極端光線。

4、實驗結果

我們對上述算法進行了實驗。我們選擇圖像平面旋轉來訓練和測試2.3節和2.4節中描述的算法。

4.1、實驗

在不帶陰影的不同光照條件下拍攝了10張玩具老虎的圖像(圖2A)。物體由單一光源照明,但由於來自周圍的擴散,環境光出現在所有圖像中。爲了排除環境成分,我們僅在環境光下拍攝物體(圖2B),並從圖2A中描繪的10張圖像中減去該圖像。利用第2節中的算法,我們找到了三個跨越光照子空間L的基圖像(圖3)。圖4給出了在任意旋轉和不同光照條件下無陰影的檢測算法結果(2.3節)。檢測器的訓練基於49個基的圖像,這些圖像張成了無陰影的旋轉和光照的線性子空間。十個檢測器足以在沒有假警報的情況下找回玩具。在玩具圖像上訓練的反面方法受到任意旋轉和環境光單獨照射,在圖4描繪的場景中未能檢測到物體。接下來的實驗是爲了測試在無限遠的任意數量的點光源照射下,檢測固定姿態下的目標的算法。允許附加陰影。我們採用與之前相同的基底圖像(圖3),並使用樣本方法[6]來近似圓錐體。在[3]中經驗地表明圓錐是平的(即圓錐是圓的)。它的元素位於一個低維的線性子空間附近),而下采樣錐提供了一個近似值,從而產生良好的識別性能。在我們的實驗中,我們創建了大約60幅圖像,以便相應的光源方向或多或少均勻地分佈在照明球上。圖5給出了不同光照條件下玩具老虎在真實圖像中的檢測結果。8到10個反人臉檢測器被用來檢測老虎的所有實例,沒有假警報。檢測器在一個近似老虎玩具錐的16D線性子空間上訓練。由於很難模擬產生明顯陰影的光照條件,我們在老虎光照錐的200個隨機樣本上用一個和兩個光源測試了算法。這些圖像是使用[3]中描述的方法人工生成的。所有200個樣本都被認定爲老虎。圖6展示了測試集的部分圖像。最後一個實驗是爲了測試在不同光照下檢測帶有陰影的物體,並在45範圍內進行圖像平面旋轉的算法(章節2.4)。我們創建的極端射線近似圓錐爲每個旋轉角度的方式在前面的實驗中描述。設計了八套反臉檢測器,每一套的範圍爲45,覆蓋360。圖7中的圖像描繪了在不同光源方向下旋轉180度的老虎。圖8所示爲相應旋轉60和100的圖像。在這些測試中,10個反人臉檢測器足以探測到老虎,沒有假警報。檢測器的訓練基於26個基圖像,這些圖像分佈在線性子空間中,近似於物體在光照變化(帶有附加陰影)和45範圍內的平面旋轉下的外觀。

                      

                    

                    

4.2、多模板結構的檢測性能

在實驗中,我們觀察到,當旋轉範圍增大時,2.4節中描述的算法的檢測性能會下降。例如,使用10個檢測器在360範圍內訓練產生449個假警報,在一個253像素的圖像(同圖7A)。結果可以解釋如下。定義有效維數,即90%能量所需的特徵值個數;它是對圖像集複雜度的一種度量(通過“複雜度”,我們指的是檢測複雜度,即,這是對多模板圖像檢測困難程度的經驗衡量)。光照錐在不同旋轉下形成的多模板的有效尺寸幾乎等於旋轉集的有效尺寸與光照錐的有效尺寸的乘積。通過比較所有這些集合的有效維數,可以證明這一點。從表1可以清楚地看出,對於所有的旋轉範圍,用於旋轉加上光照的多模板與僅用於旋轉的多模板之間的比率在8到9之間,這大約是光照錐的有效尺寸。直觀地說,旋轉和光照不能很好地混合,將它們結合在一起會產生一個非常複雜的圖像——比只允許旋轉或只允許光照變化的情況要複雜得多。如果我們用2%的步長改變能量的有效維數從90%到98%的測量,那麼集合之間的乘法關係不會改變。表2顯示了45個旋轉範圍的結果。關於多模板結構的另一個有趣的觀察是,它的複雜性取決於兩個特徵的組合:(1)它的有效維數和(2)主成分(即主成分)的光滑性。,該多模板在Rn中的奇異值分解中特徵值最大的向量。如果設置的主要方向是光滑的(即。那麼反面檢測器應該與多模板正交,也與許多其他自然平滑的圖像正交。因此,多模板的線性維數和主方向都可以用來預測檢測問題的難度。通過研究不同模板的訓練集主特徵向量的粗糙度,可以驗證這一觀點。表3總結了結果。定義粗糙度爲,其中dij爲主特徵向量DCT的係數,如[9]。

                   

                   

                  

5、結論

在本文中,我們提出了一種新的算法來檢測在不同光照和平面旋轉下的物體,其中包括附加陰影。我們的方法的關鍵元素是包括不同光照條件的影響,可以從反人臉檢測器的訓練集的一小組圖像建模;這將自動取消光照效果,允許快速光照不變檢測。該方法成功地應用於具有複雜背景的真實圖像和具有明顯附加陰影的模擬圖像中,在不同光照和旋轉條件下檢測目標。實驗表明,任意旋轉時由照明錐組成的多模板的線性維數大致等於旋轉集的線性維數與固定姿態時照明錐的線性維數的乘積。我們還證明了任何多模板的複雜性取決於其線性維數和中集合的主方向的組合。在進一步的研究中,我們計劃在包含三維物體的圖像上測試各種光照和其他旋轉下的算法。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章