Sect.6

到目前爲止，本文介紹了紋理理解中的一些新問題，以及一些新的、舊的紋理表示方法。本節的目標是通過廣泛的實驗確定什麼表示最適合哪個問題。

表示被標記爲對x-y，其中x是池編碼器，y是本地描述符。例如，fv-sift表示Fisher矢量編碼器應用於密集提取的SIFT描述符，而bovw-cnn表示視覺單詞編碼器應用於cnn卷積描述符之上。特別要注意的是，根據文獻中常見的基於CNN的圖像表示，Razavin等人（2014年）和Chatfield等人（2014）隱式使用基於CNN的描述符和fc-pooler，因此此處表示爲fc-cnn。

6.1本地圖像描述符和編碼器評估

本節比較不同的本地圖像描述符和池編碼器（第6.1.1）在紋理識別、對象識別和場景識別（第6.1.2）。6.1.3比較不同的本地描述符，第6.1.4,不同的池編碼器。6.1.5,基於CNN的描述符的其他變體。

6.1.1 實驗設置

實驗以兩種類型的局部描述符爲中心。第一種類型是從圖像中密集提取的篩選描述符（表示爲dsift）。篩選描述符以兩個像素的步幅進行採樣，並對描述符的支持進行縮放，使篩選空間倉的大小爲8×8像素。由於有4×4個空間倉，每個DSIFT描述符的支持或“接收場”爲40×40像素（包括由於雙線性插值而導致的半個倉的邊界）。描述符是128維的（Lowe 1999），但在所有實驗中，使用PCA將其維數進一步減少到80。除了提高分類精度外，這還大大減小了Fisher矢量和VLAD編碼的大小。

第二類局部圖像描述符是從CNN的卷積層中提取的深卷積特徵（稱爲CNN），這些卷積層預先訓練在IMAGENET ILSVRC數據上。大多數實驗建立在Chatfield等人的vgg-m模型之上。（2014）由於該網絡的性能優於標準網絡，如CAFFE參考模型（JIA 2013）和Alexnet（Krizhevsky等人。2012）同時具有類似的計算成本。將VGG-M卷積特徵直接從線性濾波器（不包括RELU和MAX池）中提取，作爲最後一個卷積層的輸出，得到512維描述符向量。除了vgg-m之外，實驗還考慮了Simonyan和Zisserman（2014）最近的vgg-vd（非常深，有19層）模型。CNN描述符的接收域比SIFT大得多：VGG-M爲139×139像素，VGG-VD爲252×252像素。

當與池編碼器結合時，本地描述符以多個比例提取，通過因子2s、s=−3、−2.5、…、1.5重新縮放圖像獲得（但爲了提高效率，放棄將使圖像大於1024平方像素的比例）。

最終表示的維數很大程度上取決於編碼器類型和參數。對於k視覺單詞，bovw和llc有k維，vlad有kd和fv 2kd，其中d是本地描述符的維。對於fc編碼器，維度由cnn體系結構確定；這裏的表示是從cnns的倒數第二個fc層（在最終分類層之前）提取的，並且恰好有4096個維度用於所有考慮的cnn。實際上，尺寸差異很大，Bovw，LLC和FC的尺寸相當，VLAD和FV的尺寸要高得多。例如，FV-CNN的尺寸爲64*10三次方，k=64高斯混合分量，而fc、bovw和llc的尺寸爲4096（與k=4096視覺單詞一起使用時）。然而，在實踐中，由於VLAD和FV向量通常具有高度可壓縮性，因此尺寸幾乎無法進行比較。我們通過使用PCA將FV減少到4096維，並觀察到Pascal VOC對象識別任務中分類性能的邊際降低，如下所述。

除非另有規定，學習使用標準非線性SVM分類器。最初，交叉驗證用於在範圍{0.1,1,10,100}內選擇SVM的參數C；但是，在注意到該範圍內的性能幾乎相同（可能是由於數據規範化）之後，C被簡單地設置爲常量1。相反，研究發現，重新校準每個類的SVM分數可以提高分類的準確性（當然不是地圖）。通過改變SVM偏差和重新調整SVM權重向量來獲得重新校準，這樣每個類的負訓練樣本和正訓練樣本的中位數分數分別映射到值−1和1。

本文中的所有實驗都使用VLFEAT庫（Vedaldi和Fulkerson 2010）計算SIFT特性和池嵌入（Bovw、VLAD、FV）。Matconvnet（Vedaldi和Lenc 2014）庫用於所有涉及CNN的實驗。根據需要，下文給出了每個實驗設置的具體細節。

6.1.2 數據集和實驗評估

對不同的任務進行評估：DTD和OpenSurfaces中的新可描述屬性和材料識別基準、FMD和KTH-T2B中的現有基準、Pascal VOC 2007中的對象識別以及MIT室內的場景識別。所有實驗都遵循每個數據集的標準評估協議，如下所述。

DTD（Sect.2）包含47個紋理類，每個視覺屬性一個，每個包含120個圖像。圖像被同樣地分解到訓練、測試和驗證中，包括關於“關鍵屬性”和“聯合屬性”預測的實驗，如第2.1節所定義。並報告數據集提供的10個默認分割的平均精度。

OpenSurfaces（sect.3)，包含25357張圖片，其中我們選擇了10422張圖片，橫跨21個類別。當提供段時，數據集被稱爲OS+R，並以每個段爲基礎報告識別精度。我們還用DTD的屬性註釋這些段，並將其稱爲OSA子集（當提供段時，爲設置OSA+R）。對於OSA+R上的識別任務，我們報告平均精度，因爲這是一個多標籤數據集。

FMD（Sharan等人2009）由1000張圖片組成，10種材料類別各100張。Sharan等人的標準評估方案。（2009）每節課使用50張圖片進行培訓，其餘50張用於測試，並報告14次分割的平均分類精度。KTH-T2B[65]包含4752幅圖像，分爲11個材料類別。對於每種材料類別，在不同條件下捕獲四個樣品的圖像，每個樣品產生108個圖像。遵循標準程序（Caputo等人2005年；Timofte和van Gool 2012年），一個材料樣本的圖像用於培訓模型，其他三個樣本用於評估模型，結果導致了四個可能的數據分割，報告了平均每類分類精度。麻省理工學院室內場景（Quattoni和Torralba 2009）包含6700張圖像，分爲67個場景類別。數據集提供的數據分爲列車（80%）和試驗（20%）兩部分，評估指標爲每類分類精度的平均值。Pascal VOC 2007（Everingham等人2007）包含9963個圖像，分爲20個對象類別。數據集提供了培訓、驗證和測試數據的標準分割。根據使用trecvid 11點插值方案計算的平均精度（map）報告性能（Everingham等人2007）

6.1.3本地圖像描述符和內核比較

本節的目標是確定哪些本地圖像描述符在紋理表示中最有效。這個問題是相關的，因爲：（i）雖然sift是對象和場景識別中事實上標準的手工製作特徵，但大多數作者使用專門的描述符進行紋理識別；（i i）CNN中學習到的卷積特徵在用作局部描述符時尚未進行比較（相反，它們與經典的圖像表示法相比較，並與它們的fc層結合使用。

對DTD中可描述的紋理屬性進行了識別實驗。(sect.2）使用BOVW編碼器。作爲副產品，實驗確定了在DTD中識別47種不同感知屬性的相對難度。

實驗裝置比較了以下局部圖像描述符：Leung和Malik（lm）（Leung和Malik 2001）（48d描述符）和MR8（8d描述符）（Varma和Zisserman 2005；Geusebroek等人2003），Varma和Zisserman（2003）的3×3和7×7原始圖像補丁（分別爲9d和49d），Ojala等人的局部二進制模式（lbp）。（2002）（58d），SIFT（128d），以及CNN特徵，摘自VGG-M和VGG-VD（512d）。

在提取了bovw表示之後，使用第4.2.3節中討論的不同內核來訓練1-vs-all SVM。線性、海林格、加性-χ2和指數-χ2。如前所述，內核被規範化。指數-χ2核需要選擇參數λ；該參數被設置爲訓練Bovw向量的χ2距離矩陣的平均值的倒數。在計算指數χ2核之前，bovw向量是L1歸一化的。BOVW中的一個重要參數是所選視覺單詞的數量。K在256、512、1024、2048、4096範圍內變化，並在驗證集上評估性能。無論局部特徵和嵌入情況如何，性能都隨着k而增加，並且在k=4096左右飽和（儘管對於sift和cnns等特徵，增加k的相對效益更大）。因此，在所有實驗中，k都被設置爲這個值。

分析表2報告了47個1-vs-all SVM屬性分類器的分類精度，計算結果爲（1）。正如文獻中經常發現的，最好的核是指數-χ2，其次是加性-χ2、海林格核和線性核。在手工製作的描述符中，密集sift在DTD數據上明顯優於最好的專門紋理描述符（bovw exp-χ2-sift爲52.3%，bovw exp-χ2-lm爲44%）。CNN本地描述符的識別準確率比手工特徵高出10-15%。有趣的是，內核函數的選擇對圖像補丁和線性濾波器（例如，精度幾乎是從Bovw線性補丁到Bovw exp-χ2-補丁的兩倍）有着更強大的影響，而對於更強大的CNN功能幾乎可以忽略不計。

圖5報告了bovw-sift、bovw-vgg-m和bovw-vgg-vd描述符以及加法-χ2內核的DTD中每個屬性的分類精度。正如人們所預期的那樣，方格、華夫格、針織、佩斯利等概念幾乎達到了完美的分類，而其他概念如污點、污點或染色則要困難得多。

6.1.4 Pooling Encoders

上一節確定了SIFT和CNN本地圖像描述符在備選方案中的首要地位。本節的目標是確定哪個池編碼器（第4.2）最好使用這些描述符，比較BOVW，LLC，VLAD，FV編碼器和順序敏感的FC編碼器。後者，尤其是複製了文獻中常見的CNN傳輸學習設置，CNN特徵是根據網絡的fc層提取的。

實驗設置與之前的實驗類似：使用相同的sift和cnn vgg-m描述符；bovw與hellinger內核結合使用（指數變量稍微好一點，但更貴）；相同的k=4096碼本大小用於LLC。vlad和fv使用更小的碼本這些表示形式增加了描述符的維數（第6.1.1）。由於SIFT和CNN功能分別爲128和512維，因此K分別設置爲256和64。第五節進一步分析了視覺詞數變化對FV表示的影響。6.1.5。

在用fv合併局部描述符之前，通常使用PCA美白來消除這些描述符之間的關聯。在這裏，PCA被應用於SIFT，另外將它的維數減少到80，因爲經驗表明這可以提高識別性能。第節研究了PCA約簡對卷積特徵的影響。61.7.所有實驗中都使用了改進版的FV（第3），同樣，對於VLAD，我們將有符號平方根應用於結果編碼，然後將其歸一化組件（第4.2.3節）。

分析結果見表3

下表比較了三個網絡上的fc-cnn、fv-cnn，分別是在imagenet上訓練的vgg-m、vgg-vd和alexnet，以及在密集篩選上訓練的ifv。

我們在受控環境下的紋理數據集、B材料數據集（fmd、kth-t2b、os+r）、C紋理屬性（dtd、os a+r）和D一般分類數據集（msrc+r、voc07、mit室內）和細粒度分類（cub、cub+r）上評估了這些描述符。對於這個實驗，假設區域支持是已知的（並且等於除OS+R和MSRC+R之外的所有數據集的整個圖像，對於cub+R，它被設置爲鳥的邊界框）。

使用沒有我們這樣零件的型號，性能爲62.8%

粗體值表示結果優於現有的最先進水平。

結論這些實驗的結論是：（i）IFV和VLAD比其他無序池編碼器更好，（i i）像FV這樣的無序池編碼器至少和具有CNN特徵的FC池一樣好，而且通常明顯優於前者。

6.1.5 CNN 的變體比較

本節對CNN本地描述符進行了額外的實驗，以找到最佳的變體。

實驗設置使用與前一節相同的設置。我們比較了從vgg-m、vgg-vd以及簡單的Alexnet獲得的fc-cnn和fv-cnn局部描述符的性能

分析結果詳見表4。在該表中，這裏的分析主要集中於紋理和材質數據集，但其他數據集的結論相似。一般來說，vgg-m優於alexnet，vgg-vd明顯優於vgg-m（如在fmd上，fc-alexnet得到64.8%，fc-vgg-m得到70.3%（+5.5%），fc-vgg-vd得到77.4%（+7.1%）。但是，從fc池切換到fv池比切換到更好的cnn池更能提高性能（例如，在DTD上，從fc-vgg-m切換到fc-vgg-vd可以提高7.1%，而從fc-vgg-m切換到fv-vgg-m可以提高11.3%）。結合fv-cnn和fc-cnn（通過疊加相應的圖像表示），vgg-vd的精度提高了1-2%，vgg-m的精度提高了3-5%。添加fv-sift也沒有顯著的好處，改進最多爲1%，在某些情況下（m it，fmd），它會降低性能。

接着，詳細分析了深度對卷積特徵的影響。圖6報告了在深度增加時提取的特徵的幾個數據集上的vgg-m和vgg-vd的精度。合併方法固定爲fv，高斯中心數k的設置使得描述符2kdk的整體維數爲常量。對於vgg-m和vgg-vd，隨着深度的增加，性能得到了顯著的改善，並且通過最深的特性（vgg-m的絕對精度提高了32%，vgg-vd的絕對精度提高了48%）獲得了最佳的性能。性能以更快的速度增長，直到第三個卷積層（conv3），然後速度逐漸變慢。vgg-vd中早期的層的性能比vgg-m中相應的層差得多，事實上，vgg-vd的性能與vgg-m中最深（第五）層對應的conv5_1的性能相匹配，conv5_1的深度爲13。

結論：這些實驗的結論如下：（i）更深層次的模型顯著提高了性能；（i i）從fc池切換到fv池有着更大的影響，尤其是對更深層次的模型；（i i i）將fc池和fv池結合在一起有一個適度的好處，在整合sift特性方面沒有任何好處；（iv）在非常深的層次上。P模型中，大部分性能增益是在最後幾層實現的。

論文閱讀：Deep Filter Banks for Texture Recognition, Description, and Segmentation

Sect.6

6.1本地圖像描述符和編碼器評估

6.1.1 實驗設置

6.1.2 數據集和實驗評估

6.1.3本地圖像描述符和內核比較

6.1.4 Pooling Encoders

6.1.5 CNN 的變體比較

6.1.6 FV Pooling Versus FC Pooling

Linux學習（一）--安裝與常用工具配置

Fisher Vectort學習

論文閱讀：Deep Filter Banks for Texture Recognition, Description, and Segmentation

Linux學習（三）-- jenkins

Linux學習（四）-- 知識鞏固

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結