【論文解讀】行人檢測:What Can Help Pedestrian Detection?(CVPR'17)

前言

本篇文章出自CVPR2017,四名作者爲Tsinghua University,Peking University, 外加兩名來自Megvii(曠視科技)的大佬。 文章中對能夠幫助行人檢測的extra features做了諸多分析,並且提出了HyperLearner行人檢測框架(基於Faster R-CNN改進),在KITTI&Caltech&Cityscapes數據集上實現了極爲優秀的性能。
論文:http://openaccess.thecvf.com/content_cvpr_2017/papers/Mao_What_Can_Help_CVPR_2017_paper.pdf

正文

行人檢測出了什麼問題?

無疑,行人檢測在步態識別、智能視頻監控和自動駕駛等領域發揮着重要作用。作者在文中指出,雖然近年來深度卷積網絡在通用目標檢測上取得了巨大的進步,但在行人檢測領域的研究仍有兩大主要挑戰:

(1)首先,相比一般的物體,行人與背景的辨識度更小。
這裏寫圖片描述
如上圖,行人在雜亂的背景帶來難以區分的負樣本,如交通標誌、郵筒等。它有非常相似的表觀特徵與行人。沒有額外的語義上下文,使用這種低分辨率輸入的檢測器無法區分它們,從而導致召回率的降低和誤報的增加。

(2)如何準確定位每一個行人。行人在擁擠的場景中站得很近,給定位每個個體帶來挑戰。而對於深度卷積網絡來說,這個問題變得更糟了,因爲卷積和池化生成高層次的語義激活映射,它們也模糊了靠得近的行人之間的邊界。

用額外特徵改善行人檢測器

相關改進:
作者考慮用額外的特徵來提升CNN-based pedestrian detectors的性能。這些特徵歸類如下:
這裏寫圖片描述
(1)apparent-to-semantic channels(如梯度、邊緣、像素分割、熱力信息通道)
(2)temporal channels (時間序列通道,在文中爲相鄰時間幀中提取光流通道)
(3)depth channels (深度通道)
此外,作者對作爲基本框架的Faster R-CNN做了相關改進:將原來anchor的 3 scales&3 ratios 增加到 5 scales&7 ratios,即一個anchor中心點可以對應爲35個box;考慮到行人區域小,爲了獲得更高分辨率的信息,除去了所有的conv5層

整合方案:
如何將額外的特徵送入網絡中?作者在VGG-16的主體網絡上添加了一個新的分支網絡。文章中介紹稱,這個網絡由一些卷積層(kernel size 3, padding 1 and stride 1)和池化層(kernel size 2 and stride 2)組成,輸出爲128通道的特徵,1/8原圖像的大小,而後與主體網絡中輸出的特徵級聯起來,再送入RPN。如圖:
這裏寫圖片描述
得出的結論是,在KITTI數據集上,所有的集成方法都提高了Faster R-CNN檢測器的性能。
這裏寫圖片描述

比較分析:
作者進行了兩個尺度的實驗(1x and 2x,這裏指的是圖像比例),下表爲實驗結果。
這裏寫圖片描述
在1x和2x實驗中,semantic information都表現出了更好的性能。在2x試驗中,高層語義信息但沒有低級的明顯特徵(即熱圖通道)未能超過1X的實驗的效果。作者認爲,當圖像以大的scale輸入時,低級別的細節將顯示出更大的重要性。隨後的驗證實驗也證實了這一想法。

HyperLearner

原理:
將不同通道的特徵強行整合雖然有利於提升性能,但相對於原生的Faster R-CNN,在計算成本上變的更爲昂貴。由於許多的通道特徵都是可以用CNN生成的(如semantic segmentation and edge),於是,作者想要教會CNN生成通道特徵,並且實現行人檢測。
這裏寫圖片描述
HyperLearner的框架由四部分組成:提取原圖特徵的body network,通道特徵的網絡(CFN),區域建議網絡(RPN)和用於最終檢測認爲的Fast R-CNN(FRCNN)網絡。
類似於HyperNet,作者提取提取層conv1_2,conv2_2,conv3_3和conv4_3的特徵,並進行匯聚(黃色部分的特徵圖)。而CFN通過一個完全卷積結構,直接讓聚合激活圖生成預測的通道特徵圖。RPN和FRCNN與Faster R-CNN中的網絡同理。在訓練時,是需要一張額外的通道特徵圖作爲監督的。而在測試時,如圖所示,黃色的那部分特徵圖其實就相當於其它通道提取的特徵,與body network concat一下即可。

訓練:
作者採用了Multi-stage training的方法。整個訓練階段分爲四個階段。
在第一階段,只有CFN的優化。詳細來說,修正所有參數(conv1_1到conv4_3),並放棄訓練RPN和FRCNN。
在第二階段,我們將整個body network(包括聚合激活圖卷積層)和CFN,只訓練RPN。
第三階段,CFN和RPN是固定的;只有FRCNN優化。
最後階段,所有層都是聯合優化的。

實驗

實驗結果可以說是非常暴力了。在KITTI&Caltech dataset&Cityscapes上都實現了極爲優越的性能。

KITTI:
這裏寫圖片描述

Cityscapes:
這裏寫圖片描述

Caltech dataset:
這裏寫圖片描述

總結

爲了利用額外特徵提升檢測器性能,同時解決計算成本問題,文中提出了一個新的框架HyperLearner,以共同學習通道特徵和完成行人檢測。HyperLearner能夠學習通道特徵的表示,同時不需要額外的推理輸入,在幾個數據集上有着顯著的改進。


感謝您的閱讀,文中的疏漏與錯誤,懇請批評指正。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章