目标检测笔记-CenterNet(Object as Point)

Object as Point

从关键点检测的角度进行anchor-free目标检测

  1. 输入Image IRW×H×3I \in R^{W \times H \times 3}
    输出heatmap Y^[0,1]WR×HR×C\hat{Y} \in [0, 1] ^ {\frac{W}{R} \times\frac{H} {R} \times C}
    R表示output stride,通常为4,输出对输入下采样R倍。
    C在目标检测中表示类别数,coco数据集时C=80.
    论文使用三种不同的全卷积的encoder-decoder网络:hourglass,ResNet,DLA

  2. 用CornerNet的方法,使用高斯核函数,将GT转化为heatmap。
    Yxyc=exp((xpx~)2+ypy~)22σp2) Y_{xyc}=exp(-\frac{(x-\tilde{p_x})^2+(y-\tilde{p_y})^2}{2\sigma^2_p})
    网络使用focal loss,损失函数为:
    在这里插入图片描述
    为了恢复由输出步长(stride)引起的离散误差,网络同时预测了局部偏移。所有的类别c共享相同的局部偏移。损失函数使用L1 loss。监督只用于关键点 p~\tilde{p}
    在这里插入图片描述
    (x1(k),y1(k),x2(k),y2(k))(x_1^{(k)},y_1^{(k)},x_2^{(k)},y_2^{(k)})是类别k的bbox,目标尺寸定义为sk=(x2(k)x1(k),y2(k)y1(k))s_{k}=(x_2^{(k)}-x_1^{(k)}, y_2^{(k)}-y_1^{(k)})。在目标中心点使用L1损失函数,不对比例尺进行规范化,直接使用原始像素座标:

在这里插入图片描述
因此网络的总损失函数为:

  1. 网络预测类别C,偏移O和尺寸S。对(WR,HR)(\frac{W}{R},\frac{H}{R}) 中的每个输出位置,输出C+4个结果,C表示类别,4表示偏移和尺寸。所有输出共享一个全卷积主干网络。

  2. 在检测阶段,首先提取每个类别在heatmap图上的峰值(其值大于相邻的8个邻点,并取前100个。我们用YxiyicY_{x_iy_ic}作为点xiyi(x_i,y_i)点上属于类别c的置信度。σx^\sigma\hat{x}σy^\sigma\hat{y}为偏移量预测,w^\hat{w}h^\hat{h}为尺寸预测。则我们可以计算出bbox的边界框座标:
    在这里插入图片描述
    所有输出都是直接从关键点估计产生的,而不需要基于IOU的非最大抑制(NMS)或其他后处理。峰值键点提取作为一种充分的NMS替代方案,可以在设备上使用3×3最大池操作进行有效的实现。(?)

  3. Hourglass-104能在COCO数据集上达到42.2%的准确率和7.8FPS。具体实验结果参考论文。
    在这里插入图片描述

发布了23 篇原创文章 · 获赞 2 · 访问量 9802
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章