論文閱讀:Deep Filter Banks for Texture Recognition, Description, and Segmentation

Sect.6

      到目前爲止,本文介紹了紋理理解中的一些新問題,以及一些新的、舊的紋理表示方法。本節的目標是通過廣泛的實驗確定什麼表示最適合哪個問題。

      表示被標記爲對x-y,其中x是池編碼器,y是本地描述符。例如,fv-sift表示Fisher矢量編碼器應用於密集提取的SIFT描述符,而bovw-cnn表示視覺單詞編碼器應用於cnn卷積描述符之上。特別要注意的是,根據文獻中常見的基於CNN的圖像表示,Razavin等人(2014年)和Chatfield等人(2014)隱式使用基於CNN的描述符和fc-pooler,因此此處表示爲fc-cnn。

6.1本地圖像描述符和編碼器評估

      本節比較不同的本地圖像描述符和池編碼器(第6.1.1)在紋理識別、對象識別和場景識別(第6.1.2)。6.1.3比較不同的本地描述符,第6.1.4,不同的池編碼器。6.1.5,基於CNN的描述符的其他變體。

      6.1.1 實驗設置

      實驗以兩種類型的局部描述符爲中心。第一種類型是從圖像中密集提取的篩選描述符(表示爲dsift)。篩選描述符以兩個像素的步幅進行採樣,並對描述符的支持進行縮放,使篩選空間倉的大小爲8×8像素。由於有4×4個空間倉,每個DSIFT描述符的支持或“接收場”爲40×40像素(包括由於雙線性插值而導致的半個倉的邊界)。描述符是128維的(Lowe 1999),但在所有實驗中,使用PCA將其維數進一步減少到80。除了提高分類精度外,這還大大減小了Fisher矢量和VLAD編碼的大小。

      第二類局部圖像描述符是從CNN的卷積層中提取的深卷積特徵(稱爲CNN),這些卷積層預先訓練在IMAGENET ILSVRC數據上。大多數實驗建立在Chatfield等人的vgg-m模型之上。(2014)由於該網絡的性能優於標準網絡,如CAFFE參考模型(JIA 2013)和Alexnet(Krizhevsky等人。2012)同時具有類似的計算成本。將VGG-M卷積特徵直接從線性濾波器(不包括RELU和MAX池)中提取,作爲最後一個卷積層的輸出,得到512維描述符向量。除了vgg-m之外,實驗還考慮了Simonyan和Zisserman(2014)最近的vgg-vd(非常深,有19層)模型。CNN描述符的接收域比SIFT大得多:VGG-M爲139×139像素,VGG-VD爲252×252像素。

      當與池編碼器結合時,本地描述符以多個比例提取,通過因子2s、s=−3、−2.5、…、1.5重新縮放圖像獲得(但爲了提高效率,放棄將使圖像大於1024平方像素的比例)。

      最終表示的維數很大程度上取決於編碼器類型和參數。對於k視覺單詞,bovw和llc有k維,vlad有kd和fv 2kd,其中d是本地描述符的維。對於fc編碼器,維度由cnn體系結構確定;這裏的表示是從cnns的倒數第二個fc層(在最終分類層之前)提取的,並且恰好有4096個維度用於所有考慮的cnn。實際上,尺寸差異很大,Bovw,LLC和FC的尺寸相當,VLAD和FV的尺寸要高得多。例如,FV-CNN的尺寸爲64*10三次方,k=64高斯混合分量,而fc、bovw和llc的尺寸爲4096(與k=4096視覺單詞一起使用時)。然而,在實踐中,由於VLAD和FV向量通常具有高度可壓縮性,因此尺寸幾乎無法進行比較。我們通過使用PCA將FV減少到4096維,並觀察到Pascal VOC對象識別任務中分類性能的邊際降低,如下所述。

      除非另有規定,學習使用標準非線性SVM分類器。最初,交叉驗證用於在範圍{0.1,1,10,100}內選擇SVM的參數C;但是,在注意到該範圍內的性能幾乎相同(可能是由於數據規範化)之後,C被簡單地設置爲常量1。相反,研究發現,重新校準每個類的SVM分數可以提高分類的準確性(當然不是地圖)。通過改變SVM偏差和重新調整SVM權重向量來獲得重新校準,這樣每個類的負訓練樣本和正訓練樣本的中位數分數分別映射到值−1和1。

      本文中的所有實驗都使用VLFEAT庫(Vedaldi和Fulkerson 2010)計算SIFT特性和池嵌入(Bovw、VLAD、FV)。Matconvnet(Vedaldi和Lenc 2014)庫用於所有涉及CNN的實驗。根據需要,下文給出了每個實驗設置的具體細節。

      6.1.2 數據集和實驗評估

      對不同的任務進行評估:DTD和OpenSurfaces中的新可描述屬性和材料識別基準、FMD和KTH-T2B中的現有基準、Pascal VOC 2007中的對象識別以及MIT室內的場景識別。所有實驗都遵循每個數據集的標準評估協議,如下所述。

      DTD(Sect.2)包含47個紋理類,每個視覺屬性一個,每個包含120個圖像。圖像被同樣地分解到訓練、測試和驗證中,包括關於“關鍵屬性”和“聯合屬性”預測的實驗,如第2.1節所定義。並報告數據集提供的10個默認分割的平均精度。

      OpenSurfaces(sect.3),包含25357張圖片,其中我們選擇了10422張圖片,橫跨21個類別。當提供段時,數據集被稱爲OS+R,並以每個段爲基礎報告識別精度。我們還用DTD的屬性註釋這些段,並將其稱爲OSA子集(當提供段時,爲設置OSA+R)。對於OSA+R上的識別任務,我們報告平均精度,因爲這是一個多標籤數據集。

      FMD(Sharan等人2009)由1000張圖片組成,10種材料類別各100張。Sharan等人的標準評估方案。(2009)每節課使用50張圖片進行培訓,其餘50張用於測試,並報告14次分割的平均分類精度。KTH-T2B[65]包含4752幅圖像,分爲11個材料類別。對於每種材料類別,在不同條件下捕獲四個樣品的圖像,每個樣品產生108個圖像。遵循標準程序(Caputo等人2005年;Timofte和van Gool 2012年),一個材料樣本的圖像用於培訓模型,其他三個樣本用於評估模型,結果導致了四個可能的數據分割,報告了平均每類分類精度。麻省理工學院室內場景(Quattoni和Torralba 2009)包含6700張圖像,分爲67個場景類別。數據集提供的數據分爲列車(80%)和試驗(20%)兩部分,評估指標爲每類分類精度的平均值。Pascal VOC 2007(Everingham等人2007)包含9963個圖像,分爲20個對象類別。數據集提供了培訓、驗證和測試數據的標準分割。根據使用trecvid 11點插值方案計算的平均精度(map)報告性能(Everingham等人2007)

      6.1.3本地圖像描述符和內核比較

      本節的目標是確定哪些本地圖像描述符在紋理表示中最有效。這個問題是相關的,因爲:(i)雖然sift是對象和場景識別中事實上標準的手工製作特徵,但大多數作者使用專門的描述符進行紋理識別;(i i)CNN中學習到的卷積特徵在用作局部描述符時尚未進行比較(相反,它們與經典的圖像表示法相比較,並與它們的fc層結合使用。

   對DTD中可描述的紋理屬性進行了識別實驗。(sect.2)使用BOVW編碼器。作爲副產品,實驗確定了在DTD中識別47種不同感知屬性的相對難度。

      實驗裝置比較了以下局部圖像描述符:Leung和Malik(lm)(Leung和Malik 2001)(48d描述符)和MR8(8d描述符)(Varma和Zisserman 2005;Geusebroek等人2003),Varma和Zisserman(2003)的3×3和7×7原始圖像補丁(分別爲9d和49d),Ojala等人的局部二進制模式(lbp)。(2002)(58d),SIFT(128d),以及CNN特徵,摘自VGG-M和VGG-VD(512d)。

      在提取了bovw表示之後,使用第4.2.3節中討論的不同內核來訓練1-vs-all SVM。線性、海林格、加性-χ2和指數-χ2。如前所述,內核被規範化。指數-χ2核需要選擇參數λ;該參數被設置爲訓練Bovw向量的χ2距離矩陣的平均值的倒數。在計算指數χ2核之前,bovw向量是L1歸一化的。BOVW中的一個重要參數是所選視覺單詞的數量。K在256、512、1024、2048、4096範圍內變化,並在驗證集上評估性能。無論局部特徵和嵌入情況如何,性能都隨着k而增加,並且在k=4096左右飽和(儘管對於sift和cnns等特徵,增加k的相對效益更大)。因此,在所有實驗中,k都被設置爲這個值。

      分析表2報告了47個1-vs-all SVM屬性分類器的分類精度,計算結果爲(1)。正如文獻中經常發現的,最好的核是指數-χ2,其次是加性-χ2、海林格核和線性核。在手工製作的描述符中,密集sift在DTD數據上明顯優於最好的專門紋理描述符(bovw exp-χ2-sift爲52.3%,bovw exp-χ2-lm爲44%)。CNN本地描述符的識別準確率比手工特徵高出10-15%。有趣的是,內核函數的選擇對圖像補丁和線性濾波器(例如,精度幾乎是從Bovw線性補丁到Bovw exp-χ2-補丁的兩倍)有着更強大的影響,而對於更強大的CNN功能幾乎可以忽略不計。

圖5報告了bovw-sift、bovw-vgg-m和bovw-vgg-vd描述符以及加法-χ2內核的DTD中每個屬性的分類精度。正如人們所預期的那樣,方格、華夫格、針織、佩斯利等概念幾乎達到了完美的分類,而其他概念如污點、污點或染色則要困難得多。

      6.1.4 Pooling Encoders

      上一節確定了SIFT和CNN本地圖像描述符在備選方案中的首要地位。本節的目標是確定哪個池編碼器(第4.2)最好使用這些描述符,比較BOVW,LLC,VLAD,FV編碼器和順序敏感的FC編碼器。後者,尤其是複製了文獻中常見的CNN傳輸學習設置,CNN特徵是根據網絡的fc層提取的。

      實驗設置與之前的實驗類似:使用相同的sift和cnn vgg-m描述符;bovw與hellinger內核結合使用(指數變量稍微好一點,但更貴);相同的k=4096碼本大小用於LLC。vlad和fv使用更小的碼本這些表示形式增加了描述符的維數(第6.1.1)。由於SIFT和CNN功能分別爲128和512維,因此K分別設置爲256和64。第五節進一步分析了視覺詞數變化對FV表示的影響。6.1.5。

      在用fv合併局部描述符之前,通常使用PCA美白來消除這些描述符之間的關聯。在這裏,PCA被應用於SIFT,另外將它的維數減少到80,因爲經驗表明這可以提高識別性能。第節研究了PCA約簡對卷積特徵的影響。61.7.所有實驗中都使用了改進版的FV(第3),同樣,對於VLAD,我們將有符號平方根應用於結果編碼,然後將其歸一化組件(第4.2.3節)。

      分析結果見表3

下表比較了三個網絡上的fc-cnn、fv-cnn,分別是在imagenet上訓練的vgg-m、vgg-vd和alexnet,以及在密集篩選上訓練的ifv。

我們在受控環境下的紋理數據集、B材料數據集(fmd、kth-t2b、os+r)、C紋理屬性(dtd、os a+r)和D一般分類數據集(msrc+r、voc07、mit室內)和細粒度分類(cub、cub+r)上評估了這些描述符。對於這個實驗,假設區域支持是已知的(並且等於除OS+R和MSRC+R之外的所有數據集的整個圖像,對於cub+R,它被設置爲鳥的邊界框)。

使用沒有我們這樣零件的型號,性能爲62.8%

粗體值表示結果優於現有的最先進水平。

結論這些實驗的結論是:(i)IFV和VLAD比其他無序池編碼器更好,(i i)像FV這樣的無序池編碼器至少和具有CNN特徵的FC池一樣好,而且通常明顯優於前者。

      6.1.5 CNN 的變體比較

      本節對CNN本地描述符進行了額外的實驗,以找到最佳的變體。

      實驗設置使用與前一節相同的設置。我們比較了從vgg-m、vgg-vd以及簡單的Alexnet獲得的fc-cnn和fv-cnn局部描述符的性能

      分析結果詳見表4。在該表中,這裏的分析主要集中於紋理和材質數據集,但其他數據集的結論相似。一般來說,vgg-m優於alexnet,vgg-vd明顯優於vgg-m(如在fmd上,fc-alexnet得到64.8%,fc-vgg-m得到70.3%(+5.5%),fc-vgg-vd得到77.4%(+7.1%)。但是,從fc池切換到fv池比切換到更好的cnn池更能提高性能(例如,在DTD上,從fc-vgg-m切換到fc-vgg-vd可以提高7.1%,而從fc-vgg-m切換到fv-vgg-m可以提高11.3%)。結合fv-cnn和fc-cnn(通過疊加相應的圖像表示),vgg-vd的精度提高了1-2%,vgg-m的精度提高了3-5%。添加fv-sift也沒有顯著的好處,改進最多爲1%,在某些情況下(m it,fmd),它會降低性能。

      接着,詳細分析了深度對卷積特徵的影響。圖6報告了在深度增加時提取的特徵的幾個數據集上的vgg-m和vgg-vd的精度。合併方法固定爲fv,高斯中心數k的設置使得描述符2kdk的整體維數爲常量。對於vgg-m和vgg-vd,隨着深度的增加,性能得到了顯著的改善,並且通過最深的特性(vgg-m的絕對精度提高了32%,vgg-vd的絕對精度提高了48%)獲得了最佳的性能。性能以更快的速度增長,直到第三個卷積層(conv3),然後速度逐漸變慢。vgg-vd中早期的層的性能比vgg-m中相應的層差得多,事實上,vgg-vd的性能與vgg-m中最深(第五)層對應的conv5_1的性能相匹配,conv5_1的深度爲13。

結論:這些實驗的結論如下:(i)更深層次的模型顯著提高了性能;(i i)從fc池切換到fv池有着更大的影響,尤其是對更深層次的模型;(i i i)將fc池和fv池結合在一起有一個適度的好處,在整合sift特性方面沒有任何好處;(iv)在非常深的層次上。P模型中,大部分性能增益是在最後幾層實現的。

      6.1.6 FV Pooling Versus FC Pooling

      

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章