1 Introduction
1.1 Related Work
1.1.1 Convolutional Feature Maps (CFMs)
Yang等人的工作[31]與我們的相近,它用VGG16模型[9]的Conv3-3層的CFM特徵訓練boosted decision forest,用於行人檢測,在Caltech上的性能(17.32%)與checkerboards[6]相當。在行人檢測任務中,[31]中使用的CFM似乎沒有明顯優於hand-crafted feature。這樣認爲的原因可能是雙重的。第一,[31]中使用的CFM是從pre-trained VGG16模型中提取出來的,該模型沒有在行人數據集上fine-tuned;第二,CFM特徵僅從一層提取,DCNN的多層結構沒有被充分利用。我們在本文中表明,這兩個問題對於實現良好的性能至關重要。
1.1.2 Segmentation for Object Detection
1.2 Contributions
1.使用多層CFM來訓練最先進的行人檢測器。我們表明,有可能使用多層CFM訓練一個boosted decision forests的集成,從而勝過以前的所有方法。例如,使用從兩個卷積層提取的CFM特徵,我們可以在Caltech上實現log-average miss rate爲10.7%,已經比以前的所有方法都好,包括兩種基於DCNN的複雜方法[1,2]。
2.結合語義像素標註。我們還提出了滑動窗口檢測器和語義像素標記的組合,其與以前最好的方法性能相當。爲了使方法簡單,我們使用在提案區域內的pixel labelling分數的加權和。
3.最好的行人檢測器。 在Caltech上建立了新的性能記錄,通過利用DCNN以及兩個免費的hand-crafted特徵:ACF和光流特徵。這表明手工製作特徵的某些類型與深度卷積特徵相輔相成。
在介紹我們的方法之前,我們簡要介紹數據集,評價指標和boosting模型。
1.3 Datasets,Evaluation Metric and Models
對於Caltech數據集,我們使用log-average miss rate(MR)來評估各種檢測器的性能,該log-average miss rate(MR)是通過以0.01到1個false-positive per image(FPPI)範圍之間均勻間隔的false positive rate來平均miss rate來計算的(不懂)。除非另有規定,本文剩餘部分所示實驗的檢測性能是Caltech Resonable測試集上的MR。
對於KITTI數據集,使用average precision(AP)來評估檢測性能。average precision總結了precision-recall曲線的形狀,並將其定義爲在一組均勻間隔的召回水平下的平均精度。(不懂)所有方法都是基於Moderate難度的結果進行排名。
2 Boosted Decision Forests with Multi-layer CFMs
2.1 Fine-tuning DCNNs with Bootstrapped Data
在本文中,VGG16 [9]模型用於提取CFM。衆所周知,VGG16模型最初是在具有圖像級註釋的ImageNet數據上進行了預訓練,沒有專門針對行人檢測任務進行訓練。通過使用Caltech行人數據對VGG16模型進行微調,用CFM訓練的boosted decision forest的檢測性能應該有所提升。爲了使預訓練的VGG16模型適用於行人檢測任務,我們對模型的結構進行了修改。我們用隨機初始化的二分類層替換1000路的分類層,將輸入大小從224×224改爲128×64像素。我們還將全連接層中的神經元數量從4096個減少到2048個。除了前四個卷積層之外,因爲它們對應於對於大多數視覺對象來說很普遍的低級特徵,我們微調了這個修改後的VGG16的所有層。卷積層的初始學習率設置爲0.001,全連接層的初始學習率爲0.01。每10000次迭代之後,學習率除以10。對於微調,通過不同的方法收集30k個正例和90k個負例。正樣本是與ground truth邊界框重疊[0.5,1]的樣本,負樣本爲[0,0.25]。在每次SGD迭代時,我們統一抽樣32個正樣本和96個負樣本,以構建大小爲128的mini-batch。
我們用從不同程度微調的VGG16模型的Conv3-3層提取的CFM來訓練boost decision forests,結果如表1所示。請注意,本表中的所有VGG16模型均經過對ImageNet數據預訓練的原始模型進行微調。可以觀察到,通過在訓練數據集上應用ACF [5]檢測器收集的數據進行微調的模型替換預訓練的VGG16模型,將log-average miss rate從18.71%降低到16.42%。如果使用先前訓練的模型CFM3b對bootstrapping data進行微調,則檢測性能進一步提高到14.54%的MR。通過對弱學習者的係數應用收縮率,收縮參數爲0.5(參見[38]),獲得另外1%的性能增益。最後一個模型(對應於表1中的第4行)從現在開始被稱爲CFM3。
在本節中,我們深入探討了VGG16模型的深層結構
由13個卷積層,2個完全連接的層和1個分類層組成。
這13個卷積層被組織成5個卷積堆疊,相同堆疊中的卷積層具有相同的下采樣比。我們忽略前兩個卷積堆棧(每個包含2個層)的CFM,因爲它們對於大多數視覺對象是通用的。
我們用來自單個卷積層的CFM來訓練增強的決策樹
的VGG16型號,它是使用自舉數據進行微調的(與表1中的第4行相同)。所有提升的決策林都採用與CFM3相同的數據進行培訓。對於具有Conv3-x特徵的模型,將輸入圖像直接應用於卷積層,併產生具有下采樣比爲4的特徵圖。相應的增強決策樹作爲滑動窗口檢測器,具有步長4.對於具有Conv4-x和Conv5-x功能的型號,它們適用於CFM3型號生成的提案。這是由於Conv4-x和Conv5-x的下采樣比大。
如果滑動窗口檢測器的步長太大,則會影響檢測
性能。
表2顯示了這些提升決策的檢測性能的比較
Caltech森林合理設置。我們可以觀察到Conv3-1層和Conv5-3層的MR相對較高。我們推測,Conv3-1層提供相對較低的功能,導致適合的訓練。相比之下,Conv5-3層的語義信息對於行人檢測來說可能太粗糙了。
根據表2,每個卷積棧中性能最好的層是
Conv3-3(CFM3),Conv4-3(CFM4)和Conv5-1(CFM5)的內層。
圖。圖1顯示了卷積特徵的空間分佈
由以上三種CFM型號選擇。我們觀察到大多數活動區域對應於重要的人體部位(如頭部和肩部)。
對這三層CFM進行培訓的強化決策林進一步
通過評分平均結合在一起。圖。圖2顯示了所得到的集合模型的框架。首先,CFM3模型作爲一個滑動窗口檢測器,拒絕大多數的負面例子,並將區域提案通過CFM4和CFM5。 CFM4和CFM5都爲每個傳入的提案生成置信度分數。
最終得分是通過對這三個強化決策林產出的得分進行平均來計算的。該模型在Caltech合理設置下提供了最佳報告的對數平均丟失率(10.46%),而不使用任何複雜的設計算法。
我們還評估集合模型的其他組合。此外,VGG16模型通過另一輪引導(使用CFM3)進行微調,並且其最終輸出也被組合以提高檢測性能。相應的結果可以在表3中找到。我們可以看到,組合兩層已經打破了Caltech的所有現有方法,並且添加了整個大型VGG16模型也給出了一個小的改進。