Object as Point
从关键点检测的角度进行anchor-free目标检测
-
输入Image
输出heatmap
R表示output stride,通常为4,输出对输入下采样R倍。
C在目标检测中表示类别数,coco数据集时C=80.
论文使用三种不同的全卷积的encoder-decoder网络:hourglass,ResNet,DLA -
用CornerNet的方法,使用高斯核函数,将GT转化为heatmap。
网络使用focal loss,损失函数为:
为了恢复由输出步长(stride)引起的离散误差,网络同时预测了局部偏移。所有的类别c共享相同的局部偏移。损失函数使用L1 loss。监督只用于关键点 。
是类别k的bbox,目标尺寸定义为。在目标中心点使用L1损失函数,不对比例尺进行规范化,直接使用原始像素座标:
因此网络的总损失函数为:
-
网络预测类别C,偏移O和尺寸S。对 中的每个输出位置,输出C+4个结果,C表示类别,4表示偏移和尺寸。所有输出共享一个全卷积主干网络。
-
在检测阶段,首先提取每个类别在heatmap图上的峰值(其值大于相邻的8个邻点,并取前100个。我们用作为点点上属于类别c的置信度。,为偏移量预测,,为尺寸预测。则我们可以计算出bbox的边界框座标:
所有输出都是直接从关键点估计产生的,而不需要基于IOU的非最大抑制(NMS)或其他后处理。峰值键点提取作为一种充分的NMS替代方案,可以在设备上使用3×3最大池操作进行有效的实现。(?) -
Hourglass-104能在COCO数据集上达到42.2%的准确率和7.8FPS。具体实验结果参考论文。