解读行人检测文章(1)What Can Help Pedestrian Detection

这篇文章围绕回答这个问题展开:

what kind of extra features are effective and how they actually work to improve the CNN-based pedestrian detectors?

什么样的额外特征是有效的,以及实际上他们是怎么起作用,如何提升基于CNN的行人检测器。

 

针对行人检测两个问题:

1.相比于普通的物体检测,行人检测很难区分背景和人。 行人检测时,更多地依赖与语义信息。

低分辨率时,没有额外的上下文信息,很难区分是hard negative还是正样本。即使是人也很难区分

2.针对的第二个问题,就是人体框检测不准的问题,

 

在拥挤的人群时,这个问题更为严重,因此CNN在较深层时,往往得到的是high-level的语义信息,在人靠的比较近的时候,边缘信息通常模糊。

解决这个问题最直观的方法是,利用low-level的外观信息,比如边缘信息

 

KITTI数据集里面有大量的小目标,因此在网络结构上做出了调整,具体两个调整:

1.Anchor rate和anchor scale从3,3调整到5 scales and 7 ratios

2.Conv5被直接去除,为了保留高分辨率的特征

 

这篇文章对于不同额外特征的探讨很有意思,究竟哪些特征是有用的?它们又是如何起作用?

 

结论:

The detectors utilize the semantic context provided by extra channel features to discriminate pedestrian of low resolution from hard negative samples.

检测器利用额外的语义信息帮助判别低分辨率的hard negative samples

1.对于定位不准:

 

加入边缘信息可以改善定位不准带来的FP。

 

这篇文章的结构实际上是增强了一个语义分割或者边缘检测分支,我觉得在数据集没有语义分割标签时,这个分支很难训练,文中说是采用coco训练得到的网络。它的分割能力我觉得有待考证。最终实际是直接把语义分割的特征concat到主干网络的特征中,思路比较简单。在inference的时候,那个分割网络(或者是边缘提取网络可以去掉,但网络还是挺大,因为增加了4个卷积层)。

训练流程和蒸馏很相似。

个人总结:整个文章思路很简单,最后的结论也很简单,就是边缘信息和语义信息是缓解FP中定位不准、减少hard negative样本误检测问题。

在实现上,这个分割网络(或者是边缘提取网络)挺关键,选取很重要。网络其他部分都没有改,只是把语义信息concat进去了。加进去的方式也是简单粗暴。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章