目標檢測筆記-CenterNet（Object as Point）

原創

2020-02-20 17:18

Object as Point

從關鍵點檢測的角度進行anchor-free目標檢測

輸入Image $I \in R^{W \times H \times 3}$
輸出heatmap $\hat{Y} \in [0, 1] ^ {\frac{W}{R} \times\frac{H} {R} \times C}$
R表示output stride，通常爲4，輸出對輸入下采樣R倍。
C在目標檢測中表示類別數，coco數據集時C=80.
論文使用三種不同的全卷積的encoder-decoder網絡：hourglass，ResNet，DLA
用CornerNet的方法，使用高斯核函數，將GT轉化爲heatmap。
$Y_{xyc}=exp(-\frac{(x-\tilde{p_x})^2+（y-\tilde{p_y})^2}{2\sigma^2_p})$
網絡使用focal loss，損失函數爲：

爲了恢復由輸出步長（stride）引起的離散誤差，網絡同時預測了局部偏移。所有的類別c共享相同的局部偏移。損失函數使用L1 loss。監督只用於關鍵點 $\tilde{p}$ 。

$(x_1^{(k)},y_1^{(k)},x_2^{(k)},y_2^{(k)})$ 是類別k的bbox，目標尺寸定義爲 $s_{k}=(x_2^{(k)}-x_1^{(k)}, y_2^{(k)}-y_1^{(k)})$ 。在目標中心點使用L1損失函數，不對比例尺進行規範化，直接使用原始像素座標：

因此網絡的總損失函數爲：

網絡預測類別C，偏移O和尺寸S。對 $(\frac{W}{R},\frac{H}{R})$ 中的每個輸出位置，輸出C+4個結果，C表示類別，4表示偏移和尺寸。所有輸出共享一個全卷積主幹網絡。
在檢測階段，首先提取每個類別在heatmap圖上的峯值（其值大於相鄰的8個鄰點，並取前100個。我們用 $Y_{x_iy_ic}$ 作爲點 $（x_i，y_i）$ 點上屬於類別c的置信度。 $\sigma\hat{x}$ ， $\sigma\hat{y}$ 爲偏移量預測， $\hat{w}$ ， $\hat{h}$ 爲尺寸預測。則我們可以計算出bbox的邊界框座標：

所有輸出都是直接從關鍵點估計產生的，而不需要基於IOU的非最大抑制（NMS）或其他後處理。峯值鍵點提取作爲一種充分的NMS替代方案，可以在設備上使用3×3最大池操作進行有效的實現。（？）
Hourglass-104能在COCO數據集上達到42.2%的準確率和7.8FPS。具體實驗結果參考論文。