1 Introduction

近年來，行人檢測問題得到了深入的研究。在最近基於深層卷積神經網絡（DCNNs）的方法[1,2]出現之前，最高性能的行人檢測器是使用hand-crafted特徵的boosted decision forests，例如histogram of gradients(HOG) [3], self-similarity (SS) [4], aggregate channel features (ACF) [5], filtered channel features [6] and optical flow [7].

最近，DCNN在各種各樣的視覺問題上顯著優於可比較的方法[8-15]。 R-CNN[11]在通用對象檢測方面實現了出色的性能，例如，通過DCNN模型評估一組可能的檢測（對象提案）。在[17]的行人檢測中，CifarNet [16]和AlexNet [8]已在R-CNN檢測框架中進行了廣泛的評估。在他們的工作中，在ImageNet [18]分類數據集上pre-trained AlexNet實現了最好的表現（23.3％）。注意，這個結果仍然比傳統的行人檢測器如[6]和[7]差。 [17]中的DCNN模型表現不佳主要是因爲網絡設計對行人檢測不是最佳的。通過使用更深的GoogLeNet模型，使用Caltech行人數據集進行微調，R-CNN對行人檢測的性能進一步提高到[2]中的16.43％。

爲了明確地對形變和遮擋建模，對象檢測的另一線研究是part-based的模型[19-22]和顯式遮擋處理[23-25]。 DCNN也被集成到這類研究中進行行人檢測[26-28]，但是沒有一個方法在Caltech數據集上比最佳的基於手工特徵的方法[6]取得更好的結果。

通過兩種最新的基於DCNN的方法，行人檢測的性能大大超過了基於hand-crafted features（在Caltech上約5％的增益）：CompACT-Deep [1]將hand-crafted feature與微調的DCNN相結合成爲a complexity-aware cascade。Tian等[2]使用pre-trained GoogLeNet對部件檢測器進行微調，the resulting ensemble model（稱爲DeepParts）提供與CompACT-Deep相似的結果。這兩種方法比標準R-CNN框架複雜得多：CompACT-Deep涉及使用各種hand-crafted feature，一種小型CNN模型和一種大型VGG16模型[9]。 DeepParts包含45個fine-tuned DCNN模型，需要一套策略（包括bounding-box shifting handling和part selection）來達到報告的結果。請注意，DCNN模型的高複雜度可能導致實現困難。例如，將所有45個DCNN模型加載到一個GPU卡中成本太高。

在這裏我們提出一個問題：基於DCNN的複雜學習方法是否對於達到最好的性能是必須的？我們對這個問題的回答是否定的。在本文中，我們提出了行人檢測的替代方法，其設計更簡單，具有可比的甚至更好的性能。首先，我們廣泛地評估了從用於行人檢測的fine-tuned VGG16模型的卷積層提取的CFM。僅使用單個卷積層的CFM，我們訓練一個boosted-tree-based的檢測器，並且所得到的模型已經顯著優於所有以前的方法，除了上述兩個複雜的DCNN框架。這個模型可以被看作是行人檢測的強大基準，因爲它在實現方面非常簡單。

我們表明，來自多個卷積層的CFM可以用於訓練有效的boosted decision forests。這些boosted decision forests只是通過得分平均組合在一起。所得到的集成模型擊敗了在Caltech行人數據集上的所有競爭方法。我們進一步通過加入pixel labelling model改善檢測性能。接下來我們回顧一些相關工作。

1.1 Related Work

1.1.1 Convolutional Feature Maps (CFMs)

[29-31]已經顯示，CFM在許多任務中具有很強的表示能力。 Long等人[32]將DCNN中的所有完全連接層作爲卷積層用於圖像語義分割。在[30]中，來自多層的CFM被堆疊成一個向量並用於分割和定位。Ren等人[29]在pre-trained模型的CFM（池化到固定大小）上學習一個網絡。
Yang等人的工作[31]與我們的相近，它用VGG16模型[9]的Conv3-3層的CFM特徵訓練boosted decision forest，用於行人檢測，在Caltech上的性能（17.32％）與checkerboards[6]相當。在行人檢測任務中，[31]中使用的CFM似乎沒有明顯優於hand-crafted feature。這樣認爲的原因可能是雙重的。第一，[31]中使用的CFM是從pre-trained VGG16模型中提取出來的，該模型沒有在行人數據集上fine-tuned;第二，CFM特徵僅從一層提取，DCNN的多層結構沒有被充分利用。我們在本文中表明，這兩個問題對於實現良好的性能至關重要。

1.1.2 Segmentation for Object Detection

分割方法使用的線索通常與由自上而下的方法利用的線索互補。最近，Yan等 [33]提出通過標註超像素來執行通用對象檢測，這導致DCNN模型學習的數據項的能量最小化問題。在[34,13]中，生成的分割圖像區域（不是邊界框）作爲對象提議，然後用於對象檢測。

與上述基於區域（或超像素）的方法相反，我們在這裏利用了更精細水平的信息，即像素標註。特別地，在本文中，我們證明，我們可以通過使用像素級分數簡單地重新評估由檢測器生成的提案來提高檢測性能。

1.2 Contributions

我們通過研究一些訓練細節和設計參數的影響來重新審視基於DCNN的行人檢測。我們展示了使用行人數據微調DCNN模型是至關重要的。適當的bootstrapping也有相當大的影響。除了這些發現外，本文的其他主要貢獻可概括如下。
1.使用多層CFM來訓練最先進的行人檢測器。我們表明，有可能使用多層CFM訓練一個boosted decision forests的集成，從而勝過以前的所有方法。例如，使用從兩個卷積層提取的CFM特徵，我們可以在Caltech上實現log-average miss rate爲10.7％，已經比以前的所有方法都好，包括兩種基於DCNN的複雜方法[1,2]。
2.結合語義像素標註。我們還提出了滑動窗口檢測器和語義像素標記的組合，其與以前最好的方法性能相當。爲了使方法簡單，我們使用在提案區域內的pixel labelling分數的加權和。
3.最好的行人檢測器。在Caltech上建立了新的性能記錄，通過利用DCNN以及兩個免費的hand-crafted特徵：ACF和光流特徵。這表明手工製作特徵的某些類型與深度卷積特徵相輔相成。
在介紹我們的方法之前，我們簡要介紹數據集，評價指標和boosting模型。

1.3 Datasets,Evaluation Metric and Models

Caltech pedestrian dataset：Caltech數據集[35]是行人檢測最流行的數據集之一。它包含從10個小時的城市交通視頻中提取的250k幀。總共有350k個註釋的bounding box，2300個唯一的行人。標準訓練集和測試集在每30幀採樣一個。在我們的實驗中，訓練圖像增加到每4幀中的一個。請注意，許多競爭方法[6,31,17]都使用相同的方法擴展訓練集或甚至更多的數據（每三個幀）。
對於Caltech數據集，我們使用log-average miss rate（MR）來評估各種檢測器的性能，該log-average miss rate（MR）是通過以0.01到1個false-positive per image（FPPI）範圍之間均勻間隔的false positive rate來平均miss rate來計算的（不懂）。除非另有規定，本文剩餘部分所示實驗的檢測性能是Caltech Resonable測試集上的MR。

KITTI pedestrian dataset：KITTI數據集[36]由7481個訓練圖像和7518個測試圖像組成，包括交通場景中超過80,000個註釋對象。 KITTI數據集提供了大量具有不同大小，視角，遮擋和截斷的行人。由於這些對象的多樣性，這個數據集具有針對對象大小，遮擋和截斷的難度的三個子集（Easy，Moderate，Hard）。我們使用Moderate訓練子集作爲我們實驗中的訓練數據。
對於KITTI數據集，使用average precision（AP）來評估檢測性能。average precision總結了precision-recall曲線的形狀，並將其定義爲在一組均勻間隔的召回水平下的平均精度。（不懂）所有方法都是基於Moderate難度的結果進行排名。

Boosted decision forest：除非另有規定，我們採用以下參數來訓練所有boosted decision forest。boosted decision forest模型由4096個深度爲5的決策樹組成，通過real-Adaboost的收縮版本訓練[37]。該模型尺寸設置爲128×64像素，並實施一次bootstrapping迭代來收集hard-negative並重新訓練模型。滑動窗口的步長設置爲4像素。

2 Boosted Decision Forests with Multi-layer CFMs

在本節中，我們首先顯示了通過簡單地使用從bootstrapping提取的hard negative微調DCNN可以顯着改善使用CFM的boosted decision forest。然後使用不同層的CFM來訓練boosted decision forest，並且所得到的集成模型能夠在Caltech數據集上實現最佳報告結果。

2.1 Fine-tuning DCNNs with Bootstrapped Data

在本文中，VGG16 [9]模型用於提取CFM。衆所周知，VGG16模型最初是在具有圖像級註釋的ImageNet數據上進行了預訓練，沒有專門針對行人檢測任務進行訓練。通過使用Caltech行人數據對VGG16模型進行微調，用CFM訓練的boosted decision forest的檢測性能應該有所提升。
爲了使預訓練的VGG16模型適用於行人檢測任務，我們對模型的結構進行了修改。我們用隨機初始化的二分類層替換1000路的分類層，將輸入大小從224×224改爲128×64像素。我們還將全連接層中的神經元數量從4096個減少到2048個。除了前四個卷積層之外，因爲它們對應於對於大多數視覺對象來說很普遍的低級特徵，我們微調了這個修改後的VGG16的所有層。卷積層的初始學習率設置爲0.001，全連接層的初始學習率爲0.01。每10000次迭代之後，學習率除以10。對於微調，通過不同的方法收集30k個正例和90k個負例。正樣本是與ground truth邊界框重疊[0.5,1]的樣本，負樣本爲[0,0.25]。在每次SGD迭代時，我們統一抽樣32個正樣本和96個負樣本，以構建大小爲128的mini-batch。
我們用從不同程度微調的VGG16模型的Conv3-3層提取的CFM來訓練boost decision forests，結果如表1所示。請注意，本表中的所有VGG16模型均經過對ImageNet數據預訓練的原始模型進行微調。可以觀察到，通過在訓練數據集上應用ACF [5]檢測器收集的數據進行微調的模型替換預訓練的VGG16模型，將log-average miss rate從18.71％降低到16.42％。如果使用先前訓練的模型CFM3b對bootstrapping data進行微調，則檢測性能進一步提高到14.54％的MR。通過對弱學習者的係數應用收縮率，收縮參數爲0.5（參見[38]），獲得另外1％的性能增益。最後一個模型（對應於表1中的第4行）從現在開始被稱爲CFM3。

在最後一個實驗中，我們只使用來自VGG16模型單層的CFM。
在本節中，我們深入探討了VGG16模型的深層結構
由13個卷積層，2個完全連接的層和1個分類層組成。
這13個卷積層被組織成5個卷積堆疊，相同堆疊中的卷積層具有相同的下采樣比。我們忽略前兩個卷積堆棧（每個包含2個層）的CFM，因爲它們對於大多數視覺對象是通用的。
我們用來自單個卷積層的CFM來訓練增強的決策樹
的VGG16型號，它是使用自舉數據進行微調的（與表1中的第4行相同）。所有提升的決策林都採用與CFM3相同的數據進行培訓。對於具有Conv3-x特徵的模型，將輸入圖像直接應用於卷積層，併產生具有下采樣比爲4的特徵圖。相應的增強決策樹作爲滑動窗口檢測器，具有步長4.對於具有Conv4-x和Conv5-x功能的型號，它們適用於CFM3型號生成的提案。這是由於Conv4-x和Conv5-x的下采樣比大。
如果滑動窗口檢測器的步長太大，則會影響檢測
性能。
表2顯示了這些提升決策的檢測性能的比較
Caltech森林合理設置。我們可以觀察到Conv3-1層和Conv5-3層的MR相對較高。我們推測，Conv3-1層提供相對較低的功能，導致適合的訓練。相比之下，Conv5-3層的語義信息對於行人檢測來說可能太粗糙了。
根據表2，每個卷積棧中性能最好的層是
Conv3-3（CFM3），Conv4-3（CFM4）和Conv5-1（CFM5）的內層。
圖。圖1顯示了卷積特徵的空間分佈
由以上三種CFM型號選擇。我們觀察到大多數活動區域對應於重要的人體部位（如頭部和肩部）。
對這三層CFM進行培訓的強化決策林進一步
通過評分平均結合在一起。圖。圖2顯示了所得到的集合模型的框架。首先，CFM3模型作爲一個滑動窗口檢測器，拒絕大多數的負面例子，並將區域提案通過CFM4和CFM5。 CFM4和CFM5都爲每個傳入的提案生成置信度分數。
最終得分是通過對這三個強化決策林產出的得分進行平均來計算的。該模型在Caltech合理設置下提供了最佳報告的對數平均丟失率（10.46％），而不使用任何複雜的設計算法。
我們還評估集合模型的其他組合。此外，VGG16模型通過另一輪引導（使用CFM3）進行微調，並且其最終輸出也被組合以提高檢測性能。相應的結果可以在表3中找到。我們可以看到，組合兩層已經打破了Caltech的所有現有方法，並且添加了整個大型VGG16模型也給出了一個小的改進。

Pushing the Limits of Deep CNNs for Pedestrian Detection

1 Introduction

1.1 Related Work

1.1.1 Convolutional Feature Maps (CFMs)

1.1.2 Segmentation for Object Detection

1.2 Contributions

1.3 Datasets,Evaluation Metric and Models

2 Boosted Decision Forests with Multi-layer CFMs

2.1 Fine-tuning DCNNs with Bootstrapped Data

Python實現大麥網搶票的四大關鍵技術點解析

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

Pushing the Limits of Deep CNNs for Pedestrian Detection

BinaryConnect： Training Deep Neural Networks with binary weights during propagations

Taking a Deeper Look at Pedestrians

Joint Deep Learning for Pedestrian Detection（2014）

XNOR-Net: ImageNet Classification Using Binary Convolutional Neural Networks

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結