知識點
- k折交叉驗證
- Non-Maximum Suppression:非極大值抑制算法,非極大值抑制(NMS)可以看做是抑制不是極大值的元素,搜索局部的極大值的搜索問題,NMS是許多計算機視覺算法的部分。
- 這個局部代表的是一個鄰域,鄰域有兩個參數可變,一是鄰域的維數,二是鄰域的大小。
- 在行人檢測中,滑動窗口經提取特徵,經分類器分類識別後,每個窗口都會得到一個分數。但是滑動窗口會導致很多窗口與其他窗口存在包含或者大部分交叉的情況。這時就需要用到NMS來選取那些鄰域裏分數最高(是行人的概率最大),並且抑制那些分數低的窗口。
Abstract
- 引進了一個新的數據集——Caltech。
- 提出了了個更高的評估標準。
- 證明了平常用的逐個窗口檢測的方法是有瑕疵的,在完整的圖片上會預測失敗。
- 衡量了現有的檢測系統。
- 分析了一般的常見失敗情況。
Introduction
- INRIA數據集。
- 現有數據集的缺陷。
- 貢獻(4方面)。
Dataset
- 介紹了Caltech數據集的數據內容,標記等。
Scale(等級,範圍)根據行人的圖片大小,將行人分爲3個範圍:near(80或者更多像素)、medium(30-80像素之間)、far(30像素或更少)。
- 大約68%的行人位於中等大小範圍。
- 對於medium範圍的加測對於汽車應用是十分重要的。
- 我們應當在整個工作中利用ner/ medium /far之間的區別。
Occlusion(遮擋)
- 遮擋的行人通過兩個框來標註。
- 29%的行人從來沒有被擋住
- 53%的唄擋在一部分幀
- 19%的在所有幀中都被擋
Position(位置):由於視點和地表形狀的原因約束着行人值出現在圖片的特定區域,經過分析,行人文職更加集中而不是突然出現的。
- 數據捕捉了超過11種場景:0-5用來作爲訓練,6-10用來作爲測試
設置了三個具體的訓練/測試場景
- Scenario-A:在所有外部數據上進行訓練,在會話6-10上進行測試。這樣允許在已經存在的方法上不進行重新訓練就能進行廣泛的調查。
- Scenario-B:利用會話0-5進行6折交叉驗證,每次使用5個session來進行訓練,第6個進行測試,然後在驗證集上融合結果,在政策訓練集上彙報檢測器的表現。
- Scenario-C:用0-5會話來訓練,用6-10會話來測試。(完整測試)
與現有的數據集的比較:
- 廣泛使用的‘人’數據集:MIT LabelMe的子集和PASCAL VOC數據集。
- 現有數據集可以分爲兩類:一類是人數據集包含了人的各種姿勢,另一類是行人數據集包含了垂直的人(站立或者行走),但主要是從一個較爲限制的視點進行觀察的。
- 從攝影師處收集的數據集都存在 選擇偏差 ,但是監控視頻有着有限的背景,移動拍攝的數據會極大的排除了選擇偏差。
- INRIA偏向於打的,大部分未遮擋的行人
- 其他相關的數據集有:DC,ETH
- Caltech數據集最先進和重要的方面,而且這是目前第一個數據集與時間相對應的標註框和詳細遮擋標籤。
評估方法
- 現有的已建立的評估行人檢測方法是有瑕疵的。
- pre-window VS pre-image
- pre-window:逐窗口檢測器在圖像上被密集掃描並且鄰近的檢測被合併,比如使用NMS。
- 一個典型的假設是:較好的pre-window分數會在一整個圖片上帶來更好的表現;然而在實際中pre-window表現在預測pre-image性能時失敗。
- 不是所有檢測系統都是基於華東窗口的,而且pre-window方法對這類系統的評估是不可能的。
Pre-image evaluation
- 利用PASCAL物體檢測挑戰中的修改過的scheme版本進行單幀檢測。
- 一個檢測系統需要輸入一個圖像並且爲每個檢測返回一個邊界框或者一個分數或者一個置信度。這個系統應該可以執行多等級檢測以及必要的NMS或者其他後期處理。
- 評估應該在最後生成的被檢測到的邊界框中執行。
- PASCAL估計:重疊區域必須超過50%:
- 爲了比較方法,通過變化檢測置信度的閾值,我們畫出了縱座標miss rate,橫座標每張圖像假正例(FPPI)的圖像。對於某些任務,更傾向於使用查準-召回曲線,比如汽車應用,典型的已經有一個可接受的FPPI上限,並且獨立於行人行人密度。
- 引入ignore regions。這一區域不需要匹配,匹配上不算是TP,沒有匹配上也不算FN。
- 只有完整的標註框才能用來匹配,不是可見的標註框,甚至對於部分遮擋的行人。
Evaluation Results
- Overall
- Scale
- Occlusion
- Aspect ratio