行人檢測論文筆記:How Far are We from Solving Pedestrian Detection?

文章疑問點

  • Human Baseline 的標準是如何確定的?
  • Ground-truth是什麼意思?

    • Groun-truth 指的是正確的標註(真實值)
    • 在有監督學習中,數據是有標註的,以(x, t)的形式出現,其中x是輸入數據,t是標註.正確的t標註是ground truth,錯誤的標記則不是。(也有人將所有標註數據都叫做ground truth)。
  • Intersection over Union(IoU)是什麼?

    • Intersection over Union is an evaluation metric used to measure the accuracy of an object detector on a particular dataset.

    • Any algorithm that provides predicted bounding boxes as output can be evaluated using IoU.

    • As long as we have these two sets of bounding boxes we can apply Intersection over Union.

    • An Intersection over Union score > 0.5 is normally considered a “good” prediction.

  • FPPI: False Positive Per Image

  • Oracle Experiment: An oracle experiment is used to compare your actual system to how your system would behave if some component of it always did the right thing.

Abstract

  • 調查了當前最先進的方法與“完美單幀檢測器”之間的差距。
  • 基於Caltech數據集創建了一個人工的基準。
  • 手工聚合了頂級檢測器經常出現的錯誤。
  • 刻畫了定位,前景 vs 背景兩方面的錯誤

    • 針對定位錯誤:研究了訓練集標記噪聲對檢測器性能的影響
    • 前景 vs 背景錯誤:研究了convnets,討論了哪些因素影響其性能
  • 提供了一個新的、更純淨的訓練/測試標註集。

Introduction

Preliminaries

Caltech-USA pedestrian detection benchmark

  • 最流行的數據集:Caltech-USA、KITTI

    • Caltech-USA有2.5小時、30Hz的從LA街道的一個check裏面錄製的
    • 一共350000個標註、覆蓋2300各單一的行人
    • 測試集:4024幀
  • MR: miss rate

Filtered channel features detector

  • 截止到最近的主要會議(CVPR 15),最好的方法是 Checkerboards
  • Checkerboards:是ICF的一種,ICF(Integral Channels Feature detector)
  • 目前最好的執行convnets方法對底層檢測建議很敏感,因此我們首先通過優化過濾的通道特徵檢測器來關注這些建議。
  • 環境和光流可以提高檢測(額外的提示)

Analyzing the state of the art

Are we reaching saturation?

  • 在現在的基準上,我們還有多少提升空間?爲了回答這個問題,我們提出可一個人工的基準線作爲最低極限。
  • 機器檢測算法應該達到至少人類水平,最終超過人類水平。
  • 人工基準線——爲了公平比較,關注於單幀單目檢測,註釋器需要根據行人外表和單幀環境來註釋。
  • Intersection over Union (IoU) ≥ 0.5 matching criterion。
  • 在所有情況下人類基準線表現遠遠超過當前最好的檢測器,說明對於自動方法來說,還有提升空間。

Failure analysis

Error sources

  • 一個檢測器可以有兩類錯誤:

    • 假陽性(檢測到了背景,或者很弱的定位檢測)
    • 假陰性(低得分率或者錯過某些行人檢測,檢測不全)
  • FP聚類成11個分類

  • FN聚類成6個分類,其中side view 和 cyclists是由於數據集偏差導致的,用這些案例的外部圖像增強訓練集可能是一個有效的策略。
  • 對於small pedestrains,發現低像素是主要困難來源,所以合理的利用所有像素,以及周圍上下文是很必要的。

Oracle test cases

  • 對於大多數執行最好的方法,localization和background-vs-forground誤差對檢測質量具有相等的影響。 他們同樣重要。

Improved Caltech-USA annotations

  • 原始註釋是基於跨越多個幀內插稀疏註釋(interpolating sparse annotations ),並且這些稀疏註釋不一定位於評估的幀上。
  • 我們的目標是兩方面:

    • 在一方面,我們希望提供對現有技術的更準確的評估,特別是適合於接近該問題的“最後20%”的評估。
    • 另一方面,我們希望有訓練註釋,並評估改進的註釋導怎麼樣更好的檢測。
  • 總之,我們的新註釋與人類基線在以下方面不同:訓練和測試集都被註釋,忽略區域和閉塞也被註釋,完整的視頻數據用於決策,並且允許同一圖像的多個修訂。

Improving the state of the art

Impact of training annotations

  • Pruning benefits:

    • 從原始到修剪註釋的主要變化是刪除註釋錯誤,從修剪到新的,主要的變化是更好的對齊。
    • 我們在MRN-2中看到,更強的檢測器更好地受益於更好的數據,並且檢測質量的最大增益來自移除註釋錯誤。
  • Alignment benefits:

    • 爲了利用新的1×註釋來利用9×剩餘數據,我們在新的註釋上訓練模型,並使用該模型在9×部分上重新對準原始註釋。
      Snip20161204_2
    • 因爲新的註釋更好地對齊,所以我們期望該模型能夠修復原始註釋中的輕微位置和縮放錯誤。

    • 結果表明,使用檢測器模型來提高整體數據對準確實是有效的,並且更好地對準訓練數據導致更好的檢測質量(在MRO和MRN中)。

    • 使用高質量註釋進行訓練可提高整體檢測質量,這得益於改進的對齊和減少的註釋錯誤。

Convnets for pedestrian detection

  • AlexNet 和 VGG16都在ImageNet上進行了預先訓練,並使用SquaresChnFtrs建議對Caltech 10×(原始註釋)進行了微調。

  • 可以看出,VGG顯着地減少了背景誤差,而同時稍微增加了定位誤差。

    Snip20161204_3

  • 雖然卷積在圖像分類和一般物體檢測中具有很強的結果,但是當在小物體周圍產生良好的局部檢測分數時,它們似乎有侷限性。 邊界框迴歸(和NMS)是當前架構的一個關鍵因素。

  • 表明神經網絡的原始分類能力仍有改進的餘地。

Summary

  • 相對於human baseline, there is a 10× gap still to be closed.

  • 誤差特性導致關於如何設計更好的檢測器(在3.2節中提及;例如,對於人side-view的數據增加或在垂直軸上延伸檢測器接收場)的具體建議。

  • 我們通過衡量更好的註釋對本地化準確性的影響,以及通過調查使用convnets來改善the background to foreground discrimination,來部分解決了一些問題。我們的研究結果表明,通過適當訓練的ICF檢測器可以實現顯着更好的Alignment,並且,對於行人檢測,Convent在localization上能力不強,但是可以通過邊界框迴歸(bounding box regression)部分解決。 對於原始和新註釋,所描述的檢測方法都能達到最高性能。

    Snip20161204_4

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章