Ten years of pedestrian Detection-論文整理

Ten years of pedestrian Detection-論文整理
 

最近正在研究行人檢測,學習了一篇2014年發表在ECCV上的一篇綜述性的文章,是對行人檢測過去十年的一個回顧,從dataset,main approaches的角度分析了近10年的40多篇論文提出的方法,發現有三種方法(DPM變體,Deep networks,Decision forests)都取得了相似的最好結果,並總結了feature,additional data以及context information等對於detection quality的影響。

1、Introduction

行人檢測主要的方法有:Viola&Jones variants,HOG+SVM rigid templates, deformable part detectors (DPM), and convolutional neural networks(ConvNets) 。

2、Datasets

主要的datasets有6個:INRIA, ETH, TUD-Brussels, Daimler(Daimler stereo), Caltech-USA, KITTI。

2.1 INRIA數據庫

http://pascal.inrialpes.fr/data/human/
介紹:該數據庫是“HOG+SVM”的作者Dalal創建的,該數據庫是目前使用最多的靜態行人檢測數據庫,提供原始圖片及相應的標註文件。訓練集有正樣本614張(包含2416個行人),負樣本1218張;測試集有正樣本288張(包含1126個行人),負樣本453張。圖片中人體大部分爲站立姿勢且高度大於100個象素,部分標註可能不正確。圖片主要來源於GRAZ-01、個人照片及google,因此圖片的清晰度較高。在XP操作系統下部分訓練或者測試圖片無法看清楚,但可用OpenCV正常讀取和顯示。

更新:2005

2.2 ETHZ行人數據庫

Robust Multi-Person Tracking from Mobile Platforms

https://data.vision.ee.ethz.ch/cvl/aess/dataset/

Ess等構建了基於雙目視覺的行人數據庫用於多人的行人檢測與跟蹤研究。該數據庫採用一對車載的AVT Marlins F033C攝像頭進行拍攝,分辨率爲640×480,幀率13-14fps,給出標定信息和行人標註信息,深度信息採用置信度傳播方法獲取。

更新:2010

2.3 TUD行人數據庫

https://www.mpi-inf.mpg.de/departments/computer-vision-and-multimodal-computing/research/people-detection-pose-estimation-and-tracking/multi-cue-onboard-pedestrian-detection/

介紹:TUD行人數據庫爲評估運動信息在行人檢測中的作用,提供圖像對以便計算光流信息。訓練集的正樣本爲1092對圖像(圖片大小爲720×576,包含1776個行人);負樣本爲192對非行人圖像(手持攝像機85對,車載攝像機107對);另外還提供26對車載攝像機拍攝的圖像(包含183個行人)作爲附加訓練集。測試集有508對圖像(圖像對的時間間隔爲1秒,分辨率爲640×480),共有1326個行人。Andriluka等也構建了一個數據庫用於驗證他們提出的檢測與跟蹤相結合的行人檢測技術。該數據集的訓練集提供了行人的矩形框信息、分割掩膜及其各部位(腳、小腿、大腿、軀幹和頭部)的大小和位置信息。測試集爲250張圖片(包含311個完全可見的行人)用於測試檢測器的性能,2個視頻序列(TUD-Campus和TUD-Crossing)用於評估跟蹤器的性能。

更新:2010

2.4 Daimler行人數據庫

http://www.gavrila.net/Datasets/Daimler_Pedestrian_Benchmark_D/daimler_pedestrian_benchmark_d.html

該數據庫採用車載攝像機獲取,分爲檢測和分類兩個數據集。檢測數據集的訓練樣本集有正樣本大小爲18×36和48×96的圖片各15560(3915×4)張,行人的最小高度爲72個象素;負樣本6744張(大小爲640×480或360×288)。測試集爲一段27分鐘左右的視頻(分辨率爲640×480),共21790張圖片,包含56492個行人。分類數據庫有三個訓練集和兩個測試集,每個數據集有4800張行人圖片,5000張非行人圖片,大小均爲18×36,另外還有3個輔助的非行人圖片集,各1200張圖片。

更新:2009?

2.5 Caltech Pedestrian Detection

http://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/

該數據庫是目前規模較大的行人數據庫,採用車載攝像頭拍攝,約10個小時左右,視頻的分辨率爲640×480,30幀/秒。標註了約250,000幀(約137分鐘),350000個矩形框,2300個行人,另外還對矩形框之間的時間對應關係及其遮擋的情況進行標註。數據集分爲set00~set10,其中set00~set05爲訓練集,set06~set10爲測試集(標註信息尚未公開)。性能評估方法有以下三種:(1)用外部數據進行訓練,在set06~set10進行測試;(2)6-fold交叉驗證,選擇其中的5個做訓練,另外一個做測試,調整參數,最後給出訓練集上的性能;(3)用set00~set05訓練,set06~set10做測試。由於測試集的標註信息沒有公開,需要提交給Pitor Dollar。結果提交方法爲每30幀做一個測試,將結果保存在txt文檔中(文件的命名方式爲I00029.txt I00059.txt ……),每個txt文件中的每行表示檢測到一個行人,格式爲“[left, top,width, height, score]”。如果沒有檢測到任何行人,則txt文檔爲空。該數據庫還提供了相應的Matlab工具包,包括視頻標註信息的讀取、畫ROC(Receiver Operatingcharacteristic Curve)曲線圖和非極大值抑制等工具。

更新:2014

2.6 KITTI Vision Benchmark

http://www.cvlibs.net/datasets/kitti/index.php

KITTI是德國卡爾斯魯厄理工學院和芝加哥豐田技術研究所聯合創辦的一個算法評測平臺,旨在評測對象(機動車、非機動車、行人等)檢測、目標跟蹤等計算機視覺技術在車載環境下的性能,爲機動車輔助駕駛應用做技術評估與技術儲備。

2.7 小結

http://www.cvpapers.com/datasets.html
絕大多數的數據集都可以在上面網址中找到。
INRIA最舊圖像也最少,不過好處是它擁有比較豐富的背景環境(如城市,沙灘,山地等),所以被使用的比較多。
ETH和TUD-Brussels是中等大小的視頻數據集,Daimler缺乏彩色信息,Daimler stereo, ETH, and KITTI 提供立體信息。除了INRIA之外的數據集都是從視頻中獲取的,因此可以使用光流作爲additional cue。
現在用的最多的數據集是Caltech-USA和KITTI,二者都是比較大且具有挑戰性的。Caltech-USA有大量的方法使用因而比較起來比較方便,而KITTI的數據集更加豐富一些但是用的。這篇文章主要是以Caltech數據集作爲標準,以INRIA和KITTI作爲輔助。

3 Main approaches to improve pedestrian detection

首先介紹了近十年的主要發展:

2003, VJ detector.

2005, HOG detector.

2008, DPM.

2009, Caltech dataset, 評價方法FPPW->FPPI.

然後比較了40種左右方法的missing rate,給出了圖表。
表1

圖3

3.1 Training data

很顯然,上圖3顯示了訓練數據的大小比較明顯的影響了結果的好壞。紅色部分使用的訓練集也是由Caltech數據集擴展而來。

3.2 Solution families

表1的40多種方法,大體可以分爲3類:DPM變體,DN和DF。這三種方法都大體達到了state of art 。

3.3 Better classifiers

HOG+SVMHikSvm 這些古老的方法,在當時的評價方法(FPPW)下,表現很好,但是卻在FPPI下性能比較差。MultiFtrs 方法說明Adaboost以及線性SVM在給定足夠多feature的條件下是可以達到同樣的檢測效果的。

並沒有經驗性的證據表明非線性核比線性核的性能更好。也沒有證據表明某種分類器是最適合做行人檢測的。

3.4 Additional data

使用額外的數據可以取得有效的提高,但是像立體和光流等線索都沒有被完全利用起來。現在,基於單眼的方法已經達到了有額外信息方法的水平了。

3.5 Exploiting Context

環境信息也可以給行人檢測帶來提升,儘管不如額外數據和深度結構那樣明顯。

3.6 Deformable Parts

DPM detector就是爲了做pedestrian detection而被提出來的。這種方法及其變體都很流行,儘管檢測結果都很不錯,但是卻並不突出。越來越多的僅僅使用單個部件的方法都超越了DPM,這樣就讓我們產生了疑問:究竟有沒有必要使用多個部件,即使是在有遮擋的情況下?這個問題目前也是沒有明確答案的。

3.7 Multi-scale models

多尺度(多分辨率)的模型提供了一個對於已有檢測子的更簡潔和一般化的延伸。儘管有所提升,但對於最終的結果提升相當小。

3.8 Deep Architecture

隨着數據量的增加和計算能力的增強,在計算機視覺領域(包括行人檢測方面)使用深度網絡(尤其是CNN)變得流行。

ConvNet結構混合了監督的和無監督的訓練來搭建卷積神經網絡,在INRIA,ETH,TUD-Brussels上得到了一般的結果,但在Caltech集上卻失敗了。這是從像素層面直接獲取特徵的方法。

而另一些結構(DBN, JointDeep, SDN)將part model和遮擋結合起來 都放進了深度結構,但它並不是從原始像素點之中去發現特徵,而是從使用了邊緣和色彩特徵,或者將網絡權重初始化時設置對邊緣敏感的濾波器。值得注意的是,目前還沒有人事先在ImageNet上預訓練過。

雖然沒有證據顯示神經網絡適合進行行人檢測,但是很多性能良好的模型都使用了這種結構,不過其性能也只是和DPM和DF差不多,優勢並不明顯。

3.9 Better features

在改進行人檢測的工作中,做的最多的就是增加或者多樣化輸入圖像的特徵。通過更多的和更高維度的特徵,分類的任務似乎是變簡單了,結果也有了改進。很多種類的特徵已經被發現:邊緣信息,顏色信息,紋理信息,局部形狀信息,協方差特徵,還有其他等等。越來越多的特徵已被證明可以系統性的改善性能。

很多decision forest 方法採用10個feature channel,有些則採用了多達上百個feature channel。儘管增加channel可以提升性能,但目前表現最好的方法都是採取10個channel的:6個梯度方向,1個梯度幅值,3個顏色通道,叫做 HOG+LUV.

過去十年,特徵的提升是檢測效果提升的動力,顯然,接下來的日子裏,提升特徵效果將依然是主流。這些提升都是在大量的實驗和錯誤下累積起來的。接下來的研究將集中在爲什麼這些特徵這麼好以及如何設計更好的特徵上。

4 Experiments

基於上面的分析,可以得出檢測效果的提升主要集中在3個方面:better features,additional data 和context information。所以我們做實驗來研究他們之間的互補性。

在3.2 中給出的3中主要方法裏,我們選擇了 Integral Channels Features 框架(DF方法)來做實驗,因爲這種方法表現突出且訓練較快。

4.1 Reviewing the effect of features

所有方法都是在INRIA上訓練,在Caltech上測試。如圖5所示
這裏寫圖片描述
第一批實驗都是復現那些具有里程碑式的方法,如 VJHOG+linear SVM , and ChnFtrs

從VJ以來,性能的提升多半可以歸功於採用了更好的特徵,梯度方向和顏色信息等。即使是在已有特徵基礎上加入的一點點微調也能產生顯著的提升(如SquaresChnFtrs 加入DCT變換)。

4.2 Complementarity of approaches

接下來,作者又做了大量實驗來研究better features(HOG+LUV+DCT), additional data (via optical flow), and context (via person-to-person interactions)之間的互補性。

在上文SquaresChnFtrs+DCT 的基礎上,作者用和 ACF+SDt 中同樣的方法將光流信息編碼,同時用+2Ped 中的re-weighting技巧把環境信息加入。這種 SquaresChnFtrs+DCT+SDt+2Ped 的方法被稱爲Katamari-v1
這裏寫圖片描述
如圖7 所示,Katamari-v1 方法達到了在Caltech上的最好結果,圖7還顯示了其他方法所獲得最好效果。

結論:實驗證明——通過加入額外的特徵,光流,和環境信息是可以很大程度的互補的,獲得了12%的提升。

4.3 How much model capacity is needed?

我們的目標是要從訓練集到測試集推廣,那麼在研究模型泛化能力的時候,一個重要的問題就是,模型在訓練集上的效果如何呢?
這裏寫圖片描述
圖6顯示模型在訓練集上的效果,不幸的是,這些方法都在訓練集上就表現不佳,所以,目前還沒有發現過擬合的問題。

所以,我們還是應該研究更有區分力的檢測子來提升檢測結果。這些更有區分力的檢測子可以通過尋找更好的features和更復雜的分類器來實現。

4.4 Generalisation across datasets

對於真實世界應用來說,模型的泛化能力纔是關鍵。

表2 展示了SquaresChnFtrs 用不同訓練集訓練時在Caltech上的表現(對於KITTI,評價指標是AUC,越高越好;對於其他數據集,評價指標是MR,越小越好)。
這裏寫圖片描述
從表中可以看出,在Caltech和KITTI上訓練,對於INRIA數據集的泛化性能很差。而反過來,INRIA確實對於Caltech和KITTI第二好的選擇。這些結果表明,Caltech的行人相對更加單一的,而INRIA卻因爲它的多樣性而更加有效。

這裏寫圖片描述
如圖8,訓練和測試如果都在KITTI上,SquaresChnFtrs (在KITTI上叫SquaresICF )比普通的DPM好,而且還和最好的DPM變體(DA-DPM )相當。目前在KITTI上表現最好的方法,pAUCChnFtrs 的變體,只是它使用了250個特徵通道而已。 這也和我們在3.9 和4.1 中的結論一致。

小結:儘管在一個訓練集上訓練之後再在另一個數據集上測試效果不一定好,但是排名大體還是基本一致的。也就是說,只要方法足夠好,無論benchmark是什麼都能得到好的結果。

5 Conclusion

做了這麼多實驗,發現這麼多年在pedestrian detection上的進步基本上都得益於特徵的提升,目前來看,這種趨勢還將繼續。

實驗結果表明,better features ,optical flow ,context 是互補的。將它們結合起來,得到了在Caltech數據集上的最好模型。

儘管三種主要的方法——DPM,DF,DN——是基於完全不同的學習技巧的,它們的state of art 結果卻是驚人相似的。

最後,未來的挑戰將是更深層次的理解好的特徵爲什麼好,這樣才能設計出更好的特徵!

參考文獻

http://janhosang.com/pdfs/2014_eccvw_ten_years_of_pedestrian_detection_with_supplementary_material.pdf
http://blog.csdn.net/mduke/article/details/46582443



原文地址http://www.cnblogs.com/CarryPotMan/p/5343693.html


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章