1 Introduction
1.1 Related Work
1.1.1 Convolutional Feature Maps (CFMs)
Yang等人的工作[31]与我们的相近,它用VGG16模型[9]的Conv3-3层的CFM特征训练boosted decision forest,用于行人检测,在Caltech上的性能(17.32%)与checkerboards[6]相当。在行人检测任务中,[31]中使用的CFM似乎没有明显优于hand-crafted feature。这样认为的原因可能是双重的。第一,[31]中使用的CFM是从pre-trained VGG16模型中提取出来的,该模型没有在行人数据集上fine-tuned;第二,CFM特征仅从一层提取,DCNN的多层结构没有被充分利用。我们在本文中表明,这两个问题对于实现良好的性能至关重要。
1.1.2 Segmentation for Object Detection
1.2 Contributions
1.使用多层CFM来训练最先进的行人检测器。我们表明,有可能使用多层CFM训练一个boosted decision forests的集成,从而胜过以前的所有方法。例如,使用从两个卷积层提取的CFM特征,我们可以在Caltech上实现log-average miss rate为10.7%,已经比以前的所有方法都好,包括两种基于DCNN的复杂方法[1,2]。
2.结合语义像素标注。我们还提出了滑动窗口检测器和语义像素标记的组合,其与以前最好的方法性能相当。为了使方法简单,我们使用在提案区域内的pixel labelling分数的加权和。
3.最好的行人检测器。 在Caltech上建立了新的性能记录,通过利用DCNN以及两个免费的hand-crafted特征:ACF和光流特征。这表明手工制作特征的某些类型与深度卷积特征相辅相成。
在介绍我们的方法之前,我们简要介绍数据集,评价指标和boosting模型。
1.3 Datasets,Evaluation Metric and Models
对于Caltech数据集,我们使用log-average miss rate(MR)来评估各种检测器的性能,该log-average miss rate(MR)是通过以0.01到1个false-positive per image(FPPI)范围之间均匀间隔的false positive rate来平均miss rate来计算的(不懂)。除非另有规定,本文剩余部分所示实验的检测性能是Caltech Resonable测试集上的MR。
对于KITTI数据集,使用average precision(AP)来评估检测性能。average precision总结了precision-recall曲线的形状,并将其定义为在一组均匀间隔的召回水平下的平均精度。(不懂)所有方法都是基于Moderate难度的结果进行排名。
2 Boosted Decision Forests with Multi-layer CFMs
2.1 Fine-tuning DCNNs with Bootstrapped Data
在本文中,VGG16 [9]模型用于提取CFM。众所周知,VGG16模型最初是在具有图像级注释的ImageNet数据上进行了预训练,没有专门针对行人检测任务进行训练。通过使用Caltech行人数据对VGG16模型进行微调,用CFM训练的boosted decision forest的检测性能应该有所提升。为了使预训练的VGG16模型适用于行人检测任务,我们对模型的结构进行了修改。我们用随机初始化的二分类层替换1000路的分类层,将输入大小从224×224改为128×64像素。我们还将全连接层中的神经元数量从4096个减少到2048个。除了前四个卷积层之外,因为它们对应于对于大多数视觉对象来说很普遍的低级特征,我们微调了这个修改后的VGG16的所有层。卷积层的初始学习率设置为0.001,全连接层的初始学习率为0.01。每10000次迭代之后,学习率除以10。对于微调,通过不同的方法收集30k个正例和90k个负例。正样本是与ground truth边界框重叠[0.5,1]的样本,负样本为[0,0.25]。在每次SGD迭代时,我们统一抽样32个正样本和96个负样本,以构建大小为128的mini-batch。
我们用从不同程度微调的VGG16模型的Conv3-3层提取的CFM来训练boost decision forests,结果如表1所示。请注意,本表中的所有VGG16模型均经过对ImageNet数据预训练的原始模型进行微调。可以观察到,通过在训练数据集上应用ACF [5]检测器收集的数据进行微调的模型替换预训练的VGG16模型,将log-average miss rate从18.71%降低到16.42%。如果使用先前训练的模型CFM3b对bootstrapping data进行微调,则检测性能进一步提高到14.54%的MR。通过对弱学习者的系数应用收缩率,收缩参数为0.5(参见[38]),获得另外1%的性能增益。最后一个模型(对应于表1中的第4行)从现在开始被称为CFM3。
在本节中,我们深入探讨了VGG16模型的深层结构
由13个卷积层,2个完全连接的层和1个分类层组成。
这13个卷积层被组织成5个卷积堆叠,相同堆叠中的卷积层具有相同的下采样比。我们忽略前两个卷积堆栈(每个包含2个层)的CFM,因为它们对于大多数视觉对象是通用的。
我们用来自单个卷积层的CFM来训练增强的决策树
的VGG16型号,它是使用自举数据进行微调的(与表1中的第4行相同)。所有提升的决策林都采用与CFM3相同的数据进行培训。对于具有Conv3-x特征的模型,将输入图像直接应用于卷积层,并产生具有下采样比为4的特征图。相应的增强决策树作为滑动窗口检测器,具有步长4.对于具有Conv4-x和Conv5-x功能的型号,它们适用于CFM3型号生成的提案。这是由于Conv4-x和Conv5-x的下采样比大。
如果滑动窗口检测器的步长太大,则会影响检测
性能。
表2显示了这些提升决策的检测性能的比较
Caltech森林合理设置。我们可以观察到Conv3-1层和Conv5-3层的MR相对较高。我们推测,Conv3-1层提供相对较低的功能,导致适合的训练。相比之下,Conv5-3层的语义信息对于行人检测来说可能太粗糙了。
根据表2,每个卷积栈中性能最好的层是
Conv3-3(CFM3),Conv4-3(CFM4)和Conv5-1(CFM5)的内层。
图。图1显示了卷积特征的空间分布
由以上三种CFM型号选择。我们观察到大多数活动区域对应于重要的人体部位(如头部和肩部)。
对这三层CFM进行培训的强化决策林进一步
通过评分平均结合在一起。图。图2显示了所得到的集合模型的框架。首先,CFM3模型作为一个滑动窗口检测器,拒绝大多数的负面例子,并将区域提案通过CFM4和CFM5。 CFM4和CFM5都为每个传入的提案生成置信度分数。
最终得分是通过对这三个强化决策林产出的得分进行平均来计算的。该模型在Caltech合理设置下提供了最佳报告的对数平均丢失率(10.46%),而不使用任何复杂的设计算法。
我们还评估集合模型的其他组合。此外,VGG16模型通过另一轮引导(使用CFM3)进行微调,并且其最终输出也被组合以提高检测性能。相应的结果可以在表3中找到。我们可以看到,组合两层已经打破了Caltech的所有现有方法,并且添加了整个大型VGG16模型也给出了一个小的改进。