目标检测笔记-CenterNet（Object as Point）

原創

2020-02-20 17:18

Object as Point

从关键点检测的角度进行anchor-free目标检测

输入Image $I \in R^{W \times H \times 3}$
输出heatmap $\hat{Y} \in [0, 1] ^ {\frac{W}{R} \times\frac{H} {R} \times C}$
R表示output stride，通常为4，输出对输入下采样R倍。
C在目标检测中表示类别数，coco数据集时C=80.
论文使用三种不同的全卷积的encoder-decoder网络：hourglass，ResNet，DLA
用CornerNet的方法，使用高斯核函数，将GT转化为heatmap。
$Y_{xyc}=exp(-\frac{(x-\tilde{p_x})^2+（y-\tilde{p_y})^2}{2\sigma^2_p})$
网络使用focal loss，损失函数为：

为了恢复由输出步长（stride）引起的离散误差，网络同时预测了局部偏移。所有的类别c共享相同的局部偏移。损失函数使用L1 loss。监督只用于关键点 $\tilde{p}$ 。

$(x_1^{(k)},y_1^{(k)},x_2^{(k)},y_2^{(k)})$ 是类别k的bbox，目标尺寸定义为 $s_{k}=(x_2^{(k)}-x_1^{(k)}, y_2^{(k)}-y_1^{(k)})$ 。在目标中心点使用L1损失函数，不对比例尺进行规范化，直接使用原始像素座标：

因此网络的总损失函数为：

网络预测类别C，偏移O和尺寸S。对 $(\frac{W}{R},\frac{H}{R})$ 中的每个输出位置，输出C+4个结果，C表示类别，4表示偏移和尺寸。所有输出共享一个全卷积主干网络。
在检测阶段，首先提取每个类别在heatmap图上的峰值（其值大于相邻的8个邻点，并取前100个。我们用 $Y_{x_iy_ic}$ 作为点 $（x_i，y_i）$ 点上属于类别c的置信度。 $\sigma\hat{x}$ ， $\sigma\hat{y}$ 为偏移量预测， $\hat{w}$ ， $\hat{h}$ 为尺寸预测。则我们可以计算出bbox的边界框座标：

所有输出都是直接从关键点估计产生的，而不需要基于IOU的非最大抑制（NMS）或其他后处理。峰值键点提取作为一种充分的NMS替代方案，可以在设备上使用3×3最大池操作进行有效的实现。（？）
Hourglass-104能在COCO数据集上达到42.2%的准确率和7.8FPS。具体实验结果参考论文。