文章疑問點
- Human Baseline 的標準是如何確定的?
Ground-truth是什麼意思?
- Groun-truth 指的是正確的標註(真實值)
- 在有監督學習中,數據是有標註的,以(x, t)的形式出現,其中x是輸入數據,t是標註.正確的t標註是ground truth,錯誤的標記則不是。(也有人將所有標註數據都叫做ground truth)。
Intersection over Union(IoU)是什麼?
Intersection over Union is an evaluation metric used to measure the accuracy of an object detector on a particular dataset.
Any algorithm that provides predicted bounding boxes as output can be evaluated using IoU.
As long as we have these two sets of bounding boxes we can apply Intersection over Union.
An Intersection over Union score > 0.5 is normally considered a “good” prediction.
FPPI: False Positive Per Image
- Oracle Experiment: An oracle experiment is used to compare your actual system to how your system would behave if some component of it always did the right thing.
Abstract
- 調查了當前最先進的方法與“完美單幀檢測器”之間的差距。
- 基於Caltech數據集創建了一個人工的基準。
- 手工聚合了頂級檢測器經常出現的錯誤。
刻畫了定位,前景 vs 背景兩方面的錯誤
- 針對定位錯誤:研究了訓練集標記噪聲對檢測器性能的影響
- 前景 vs 背景錯誤:研究了convnets,討論了哪些因素影響其性能
提供了一個新的、更純淨的訓練/測試標註集。
Introduction
Preliminaries
Caltech-USA pedestrian detection benchmark
最流行的數據集:Caltech-USA、KITTI
- Caltech-USA有2.5小時、30Hz的從LA街道的一個check裏面錄製的
- 一共350000個標註、覆蓋2300各單一的行人
- 測試集:4024幀
MR: miss rate
Filtered channel features detector
- 截止到最近的主要會議(CVPR 15),最好的方法是 Checkerboards
- Checkerboards:是ICF的一種,ICF(Integral Channels Feature detector)
- 目前最好的執行convnets方法對底層檢測建議很敏感,因此我們首先通過優化過濾的通道特徵檢測器來關注這些建議。
- 環境和光流可以提高檢測(額外的提示)
Analyzing the state of the art
Are we reaching saturation?
- 在現在的基準上,我們還有多少提升空間?爲了回答這個問題,我們提出可一個人工的基準線作爲最低極限。
- 機器檢測算法應該達到至少人類水平,最終超過人類水平。
- 人工基準線——爲了公平比較,關注於單幀單目檢測,註釋器需要根據行人外表和單幀環境來註釋。
- Intersection over Union (IoU) ≥ 0.5 matching criterion。
- 在所有情況下人類基準線表現遠遠超過當前最好的檢測器,說明對於自動方法來說,還有提升空間。
Failure analysis
Error sources
一個檢測器可以有兩類錯誤:
- 假陽性(檢測到了背景,或者很弱的定位檢測)
- 假陰性(低得分率或者錯過某些行人檢測,檢測不全)
FP聚類成11個分類
- FN聚類成6個分類,其中side view 和 cyclists是由於數據集偏差導致的,用這些案例的外部圖像增強訓練集可能是一個有效的策略。
- 對於small pedestrains,發現低像素是主要困難來源,所以合理的利用所有像素,以及周圍上下文是很必要的。
Oracle test cases
- 對於大多數執行最好的方法,localization和background-vs-forground誤差對檢測質量具有相等的影響。 他們同樣重要。
Improved Caltech-USA annotations
- 原始註釋是基於跨越多個幀內插稀疏註釋(interpolating sparse annotations ),並且這些稀疏註釋不一定位於評估的幀上。
我們的目標是兩方面:
- 在一方面,我們希望提供對現有技術的更準確的評估,特別是適合於接近該問題的“最後20%”的評估。
- 另一方面,我們希望有訓練註釋,並評估改進的註釋導怎麼樣更好的檢測。
總之,我們的新註釋與人類基線在以下方面不同:訓練和測試集都被註釋,忽略區域和閉塞也被註釋,完整的視頻數據用於決策,並且允許同一圖像的多個修訂。
Improving the state of the art
Impact of training annotations
Pruning benefits:
- 從原始到修剪註釋的主要變化是刪除註釋錯誤,從修剪到新的,主要的變化是更好的對齊。
- 我們在MRN-2中看到,更強的檢測器更好地受益於更好的數據,並且檢測質量的最大增益來自移除註釋錯誤。
Alignment benefits:
- 爲了利用新的1×註釋來利用9×剩餘數據,我們在新的註釋上訓練模型,並使用該模型在9×部分上重新對準原始註釋。
因爲新的註釋更好地對齊,所以我們期望該模型能夠修復原始註釋中的輕微位置和縮放錯誤。
結果表明,使用檢測器模型來提高整體數據對準確實是有效的,並且更好地對準訓練數據導致更好的檢測質量(在MRO和MRN中)。
使用高質量註釋進行訓練可提高整體檢測質量,這得益於改進的對齊和減少的註釋錯誤。
- 爲了利用新的1×註釋來利用9×剩餘數據,我們在新的註釋上訓練模型,並使用該模型在9×部分上重新對準原始註釋。
Convnets for pedestrian detection
AlexNet 和 VGG16都在ImageNet上進行了預先訓練,並使用SquaresChnFtrs建議對Caltech 10×(原始註釋)進行了微調。
可以看出,VGG顯着地減少了背景誤差,而同時稍微增加了定位誤差。
雖然卷積在圖像分類和一般物體檢測中具有很強的結果,但是當在小物體周圍產生良好的局部檢測分數時,它們似乎有侷限性。 邊界框迴歸(和NMS)是當前架構的一個關鍵因素。
表明神經網絡的原始分類能力仍有改進的餘地。
Summary
相對於human baseline, there is a 10× gap still to be closed.
誤差特性導致關於如何設計更好的檢測器(在3.2節中提及;例如,對於人side-view的數據增加或在垂直軸上延伸檢測器接收場)的具體建議。
我們通過衡量更好的註釋對本地化準確性的影響,以及通過調查使用convnets來改善the background to foreground discrimination,來部分解決了一些問題。我們的研究結果表明,通過適當訓練的ICF檢測器可以實現顯着更好的Alignment,並且,對於行人檢測,Convent在localization上能力不強,但是可以通過邊界框迴歸(bounding box regression)部分解決。 對於原始和新註釋,所描述的檢測方法都能達到最高性能。