Pushing the Limits of Deep CNNs for Pedestrian Detection

1 Introduction

       近年來,行人檢測問題得到了深入的研究。在最近基於深層卷積神經網絡(DCNNs)的方法[1,2]出現之前,最高性能的行人檢測器是使用hand-crafted特徵的boosted decision forests,例如histogram of gradients(HOG) [3], self-similarity (SS) [4], aggregate channel features (ACF) [5], filtered channel features [6] and optical flow [7].
       最近,DCNN在各種各樣的視覺問題上顯著優於可比較的方法[8-15]。 R-CNN[11]在通用對象檢測方面實現了出色的性能,例如,通過DCNN模型評估一組可能的檢測(對象提案)。 在[17]的行人檢測中,CifarNet [16]和AlexNet [8]已在R-CNN檢測框架中進行了廣泛的評估。 在他們的工作中,在ImageNet [18]分類數據集上pre-trained AlexNet實現了最好的表現(23.3%)。 注意,這個結果仍然比傳統的行人檢測器如[6]和[7]差。 [17]中的DCNN模型表現不佳主要是因爲網絡設計對行人檢測不是最佳的。 通過使用更深的GoogLeNet模型,使用Caltech行人數據集進行微調,R-CNN對行人檢測的性能進一步提高到[2]中的16.43%。
        爲了明確地對形變和遮擋建模,對象檢測的另一線研究是part-based的模型[19-22]和顯式遮擋處理[23-25]。 DCNN也被集成到這類研究中進行行人檢測[26-28],但是沒有一個方法在Caltech數據集上比最佳的基於手工特徵的方法[6]取得更好的結果。
       通過兩種最新的基於DCNN的方法,行人檢測的性能大大超過了基於hand-crafted features(在Caltech上約5%的增益):CompACT-Deep [1]將hand-crafted feature與微調的DCNN相結合成爲a complexity-aware cascade。Tian等[2]使用pre-trained GoogLeNet對部件檢測器進行微調,the resulting ensemble model(稱爲DeepParts)提供與CompACT-Deep相似的結果。這兩種方法比標準R-CNN框架複雜得多:CompACT-Deep涉及使用各種hand-crafted feature,一種小型CNN模型和一種大型VGG16模型[9]。 DeepParts包含45個fine-tuned DCNN模型,需要一套策略(包括bounding-box shifting handling和part selection)來達到報告的結果。請注意,DCNN模型的高複雜度可能導致實現困難。例如,將所有45個DCNN模型加載到一個GPU卡中成本太高。
       在這裏我們提出一個問題:基於DCNN的複雜學習方法是否對於達到最好的性能是必須的?我們對這個問題的回答是否定的。在本文中,我們提出了行人檢測的替代方法,其設計更簡單,具有可比的甚至更好的性能。首先,我們廣泛地評估了從 用於行人檢測的fine-tuned VGG16模型的卷積層提取的CFM。僅使用單個卷積層的CFM,我們訓練一個boosted-tree-based的檢測器,並且所得到的模型已經顯著優於所有以前的方法,除了上述兩個複雜的DCNN框架。這個模型可以被看作是行人檢測的強大基準,因爲它在實現方面非常簡單。
       我們表明,來自多個卷積層的CFM可以用於訓練有效的boosted decision forests。這些boosted decision forests只是通過得分平均組合在一起。所得到的集成模型擊敗了在Caltech行人數據集上的所有競爭方法。我們進一步通過加入pixel labelling model改善檢測性能。接下來我們回顧一些相關工作。

1.1 Related Work

1.1.1 Convolutional Feature Maps (CFMs)

       [29-31]已經顯示,CFM在許多任務中具有很強的表示能力。 Long等人[32]將DCNN中的所有完全連接層作爲卷積層用於圖像語義分割。在[30]中,來自多層的CFM被堆疊成一個向量並用於分割和定位。Ren等人[29]在pre-trained模型的CFM(池化到固定大小)上學習一個網絡。
          Yang等人的工作[31]與我們的相近,它用VGG16模型[9]的Conv3-3層的CFM特徵訓練boosted decision forest,用於行人檢測,在Caltech上的性能(17.32%)與checkerboards[6]相當。在行人檢測任務中,[31]中使用的CFM似乎沒有明顯優於hand-crafted feature。這樣認爲的原因可能是雙重的。第一,[31]中使用的CFM是從pre-trained VGG16模型中提取出來的,該模型沒有在行人數據集上fine-tuned;第二,CFM特徵僅從一層提取,DCNN的多層結構沒有被充分利用。我們在本文中表明,這兩個問題對於實現良好的性能至關重要。

1.1.2 Segmentation for Object Detection

       分割方法使用的線索通常與 由自上而下的方法利用的線索 互補。 最近,Yan等 [33]提出通過標註超像素來執行通用對象檢測,這導致DCNN模型學習的數據項的能量最小化問題。 在[34,13]中,生成的分割圖像區域(不是邊界框)作爲對象提議,然後用於對象檢測。
       與上述基於區域(或超像素)的方法相反,我們在這裏利用了更精細水平的信息,即像素標註。 特別地,在本文中,我們證明,我們可以通過使用 像素級分數 簡單地重新評估由檢測器生成的提案 來提高檢測性能。


1.2 Contributions

       我們通過研究一些訓練細節和設計參數的影響來重新審視基於DCNN的行人檢測。我們展示了使用行人數據微調DCNN模型是至關重要的。適當的bootstrapping也有相當大的影響。除了這些發現外,本文的其他主要貢獻可概括如下。
      1.使用多層CFM來訓練最先進的行人檢測器。我們表明,有可能使用多層CFM訓練一個boosted decision forests的集成,從而勝過以前的所有方法。例如,使用從兩個卷積層提取的CFM特徵,我們可以在Caltech上實現log-average miss rate爲10.7%,已經比以前的所有方法都好,包括兩種基於DCNN的複雜方法[1,2]。
       2.結合語義像素標註。我們還提出了滑動窗口檢測器和語義像素標記的組合,其與以前最好的方法性能相當。爲了使方法簡單,我們使用在提案區域內的pixel labelling分數的加權和。
      3.最好的行人檢測器。 在Caltech上建立了新的性能記錄,通過利用DCNN以及兩個免費的hand-crafted特徵:ACF和光流特徵。這表明手工製作特徵的某些類型與深度卷積特徵相輔相成。
       在介紹我們的方法之前,我們簡要介紹數據集,評價指標和boosting模型。

1.3 Datasets,Evaluation Metric and Models

      Caltech pedestrian dataset:Caltech數據集[35]是行人檢測最流行的數據集之一。它包含從10個小時的城市交通視頻中提取的250k幀。總共有350k個註釋的bounding box,2300個唯一的行人。標準訓練集和測試集在每30幀採樣一個。在我們的實驗中,訓練圖像增加到每4幀中的一個。請注意,許多競爭方法[6,31,17]都使用相同的方法擴展訓練集或甚至更多的數據(每三個幀)。
       對於Caltech數據集,我們使用log-average miss rate(MR)來評估各種檢測器的性能,該log-average miss rate(MR)是通過以0.01到1個false-positive per image(FPPI)範圍之間均勻間隔的false positive rate來平均miss rate來計算的(不懂)。除非另有規定,本文剩餘部分所示實驗的檢測性能是Caltech Resonable測試集上的MR。

KITTI pedestrian dataset:KITTI數據集[36]由7481個訓練圖像和7518個測試圖像組成,包括交通場景中超過80,000個註釋對象。 KITTI數據集提供了大量具有不同大小,視角,遮擋和截斷的行人。由於這些對象的多樣性,這個數據集具有針對對象大小,遮擋和截斷的難度的三個子集(Easy,Moderate,Hard)。我們使用Moderate訓練子集作爲我們實驗中的訓練數據。
       對於KITTI數據集,使用average precision(AP)來評估檢測性能。average precision總結了precision-recall曲線的形狀,並將其定義爲在一組均勻間隔的召回水平下的平均精度。(不懂)所有方法都是基於Moderate難度的結果進行排名。

Boosted decision forest:除非另有規定,我們採用以下參數來訓練所有boosted decision forest。boosted decision forest模型由4096個深度爲5的決策樹組成,通過real-Adaboost的收縮版本訓練[37]。該模型尺寸設置爲128×64像素,並實施一次bootstrapping迭代來收集hard-negative並重新訓練模型。滑動窗口的步長設置爲4像素。

2 Boosted Decision Forests with Multi-layer CFMs

      在本節中,我們首先顯示了通過簡單地使用從bootstrapping提取的hard negative微調DCNN可以顯着改善使用CFM的boosted decision forest。然後使用不同層的CFM來訓練boosted decision forest,並且所得到的集成模型能夠在Caltech數據集上實現最佳報告結果。

2.1 Fine-tuning DCNNs with Bootstrapped Data

       在本文中,VGG16 [9]模型用於提取CFM。衆所周知,VGG16模型最初是在具有圖像級註釋的ImageNet數據上進行了預訓練,沒有專門針對行人檢測任務進行訓練。通過使用Caltech行人數據對VGG16模型進行微調,用CFM訓練的boosted decision forest的檢測性能應該有所提升
       爲了使預訓練的VGG16模型適用於行人檢測任務,我們對模型的結構進行了修改。我們用隨機初始化的二分類層替換1000路的分類層,將輸入大小從224×224改爲128×64像素。我們還將全連接層中的神經元數量從4096個減少到2048個。除了前四個卷積層之外,因爲它們對應於對於大多數視覺對象來說很普遍的低級特徵,我們微調了這個修改後的VGG16的所有層。卷積層的初始學習率設置爲0.001,全連接層的初始學習率爲0.01。每10000次迭代之後,學習率除以10。對於微調,通過不同的方法收集30k個正例和90k個負例。正樣本是與ground truth邊界框重疊[0.5,1]的樣本,負樣本爲[0,0.25]。在每次SGD迭代時,我們統一抽樣32個正樣本和96個負樣本,以構建大小爲128的mini-batch。
       我們用從不同程度微調的VGG16模型的Conv3-3層提取的CFM來訓練boost decision forests,結果如表1所示。請注意,本表中的所有VGG16模型均經過對ImageNet數據預訓練的原始模型進行微調。可以觀察到,通過在訓練數據集上應用ACF [5]檢測器收集的數據進行微調的模型替換預訓練的VGG16模型,將log-average miss rate從18.71%降低到16.42%。如果使用先前訓練的模型CFM3b對bootstrapping data進行微調,則檢測性能進一步提高到14.54%的MR。通過對弱學習者的係數應用收縮率,收縮參數爲0.5(參見[38]),獲得另外1%的性能增益。最後一個模型(對應於表1中的第4行)從現在開始被稱爲CFM3。

在最後一個實驗中,我們只使用來自VGG16模型單層的CFM。
在本節中,我們深入探討了VGG16模型的深層結構
由13個卷積層,2個完全連接的層和1個分類層組成。
這13個卷積層被組織成5個卷積堆疊,相同堆疊中的卷積層具有相同的下采樣比。我們忽略前兩個卷積堆棧(每個包含2個層)的CFM,因爲它們對於大多數視覺對象是通用的。
我們用來自單個卷積層的CFM來訓練增強的決策樹
的VGG16型號,它是使用自舉數據進行微調的(與表1中的第4行相同)。所有提升的決策林都採用與CFM3相同的數據進行培訓。對於具有Conv3-x特徵的模型,將輸入圖像直接應用於卷積層,併產生具有下采樣比爲4的特徵圖。相應的增強決策樹作爲滑動窗口檢測器,具有步長4.對於具有Conv4-x和Conv5-x功能的型號,它們適用於CFM3型號生成的提案。這是由於Conv4-x和Conv5-x的下采樣比大。
如果滑動窗口檢測器的步長太大,則會影響檢測
性能。
表2顯示了這些提升決策的檢測性能的比較
Caltech森林合理設置。我們可以觀察到Conv3-1層和Conv5-3層的MR相對較高。我們推測,Conv3-1層提供相對較低的功能,導致適合的訓練。相比之下,Conv5-3層的語義信息對於行人檢測來說可能太粗糙了。
根據表2,每個卷積棧中性能最好的層是
Conv3-3(CFM3),Conv4-3(CFM4)和Conv5-1(CFM5)的內層。
圖。圖1顯示了卷積特徵的空間分佈
由以上三種CFM型號選擇。我們觀察到大多數活動區域對應於重要的人體部位(如頭部和肩部)。
對這三層CFM進行培訓的強化決策林進一步
通過評分平均結合在一起。圖。圖2顯示了所得到的集合模型的框架。首先,CFM3模型作爲一個滑動窗口檢測器,拒絕大多數的負面例子,並將區域提案通過CFM4和CFM5。 CFM4和CFM5都爲每個傳入的提案生成置信度分數。
最終得分是通過對這三個強化決策林產出的得分進行平均來計算的。該模型在Caltech合理設置下提供了最佳報告的對數平均丟失率(10.46%),而不使用任何複雜的設計算法。
我們還評估集合模型的其他組合。此外,VGG16模型通過另一輪引導(使用CFM3)進行微調,並且其最終輸出也被組合以提高檢測性能。相應的結果可以在表3中找到。我們可以看到,組合兩層已經打破了Caltech的所有現有方法,並且添加了整個大型VGG16模型也給出了一個小的改進。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章