解讀行人檢測文章(1)What Can Help Pedestrian Detection

這篇文章圍繞回答這個問題展開:

what kind of extra features are effective and how they actually work to improve the CNN-based pedestrian detectors?

什麼樣的額外特徵是有效的,以及實際上他們是怎麼起作用,如何提升基於CNN的行人檢測器。

 

針對行人檢測兩個問題:

1.相比於普通的物體檢測,行人檢測很難區分背景和人。 行人檢測時,更多地依賴與語義信息。

低分辨率時,沒有額外的上下文信息,很難區分是hard negative還是正樣本。即使是人也很難區分

2.針對的第二個問題,就是人體框檢測不準的問題,

 

在擁擠的人羣時,這個問題更爲嚴重,因此CNN在較深層時,往往得到的是high-level的語義信息,在人靠的比較近的時候,邊緣信息通常模糊。

解決這個問題最直觀的方法是,利用low-level的外觀信息,比如邊緣信息

 

KITTI數據集裏面有大量的小目標,因此在網絡結構上做出了調整,具體兩個調整:

1.Anchor rate和anchor scale從3,3調整到5 scales and 7 ratios

2.Conv5被直接去除,爲了保留高分辨率的特徵

 

這篇文章對於不同額外特徵的探討很有意思,究竟哪些特徵是有用的?它們又是如何起作用?

 

結論:

The detectors utilize the semantic context provided by extra channel features to discriminate pedestrian of low resolution from hard negative samples.

檢測器利用額外的語義信息幫助判別低分辨率的hard negative samples

1.對於定位不準:

 

加入邊緣信息可以改善定位不準帶來的FP。

 

這篇文章的結構實際上是增強了一個語義分割或者邊緣檢測分支,我覺得在數據集沒有語義分割標籤時,這個分支很難訓練,文中說是採用coco訓練得到的網絡。它的分割能力我覺得有待考證。最終實際是直接把語義分割的特徵concat到主幹網絡的特徵中,思路比較簡單。在inference的時候,那個分割網絡(或者是邊緣提取網絡可以去掉,但網絡還是挺大,因爲增加了4個卷積層)。

訓練流程和蒸餾很相似。

個人總結:整個文章思路很簡單,最後的結論也很簡單,就是邊緣信息和語義信息是緩解FP中定位不準、減少hard negative樣本誤檢測問題。

在實現上,這個分割網絡(或者是邊緣提取網絡)挺關鍵,選取很重要。網絡其他部分都沒有改,只是把語義信息concat進去了。加進去的方式也是簡單粗暴。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章