目標檢測筆記-CenterNet(Object as Point)

Object as Point

從關鍵點檢測的角度進行anchor-free目標檢測

  1. 輸入Image IRW×H×3I \in R^{W \times H \times 3}
    輸出heatmap Y^[0,1]WR×HR×C\hat{Y} \in [0, 1] ^ {\frac{W}{R} \times\frac{H} {R} \times C}
    R表示output stride,通常爲4,輸出對輸入下采樣R倍。
    C在目標檢測中表示類別數,coco數據集時C=80.
    論文使用三種不同的全卷積的encoder-decoder網絡:hourglass,ResNet,DLA

  2. 用CornerNet的方法,使用高斯核函數,將GT轉化爲heatmap。
    Yxyc=exp((xpx~)2+ypy~)22σp2) Y_{xyc}=exp(-\frac{(x-\tilde{p_x})^2+(y-\tilde{p_y})^2}{2\sigma^2_p})
    網絡使用focal loss,損失函數爲:
    在這裏插入圖片描述
    爲了恢復由輸出步長(stride)引起的離散誤差,網絡同時預測了局部偏移。所有的類別c共享相同的局部偏移。損失函數使用L1 loss。監督只用於關鍵點 p~\tilde{p}
    在這裏插入圖片描述
    (x1(k),y1(k),x2(k),y2(k))(x_1^{(k)},y_1^{(k)},x_2^{(k)},y_2^{(k)})是類別k的bbox,目標尺寸定義爲sk=(x2(k)x1(k),y2(k)y1(k))s_{k}=(x_2^{(k)}-x_1^{(k)}, y_2^{(k)}-y_1^{(k)})。在目標中心點使用L1損失函數,不對比例尺進行規範化,直接使用原始像素座標:

在這裏插入圖片描述
因此網絡的總損失函數爲:

  1. 網絡預測類別C,偏移O和尺寸S。對(WR,HR)(\frac{W}{R},\frac{H}{R}) 中的每個輸出位置,輸出C+4個結果,C表示類別,4表示偏移和尺寸。所有輸出共享一個全卷積主幹網絡。

  2. 在檢測階段,首先提取每個類別在heatmap圖上的峯值(其值大於相鄰的8個鄰點,並取前100個。我們用YxiyicY_{x_iy_ic}作爲點xiyi(x_i,y_i)點上屬於類別c的置信度。σx^\sigma\hat{x}σy^\sigma\hat{y}爲偏移量預測,w^\hat{w}h^\hat{h}爲尺寸預測。則我們可以計算出bbox的邊界框座標:
    在這裏插入圖片描述
    所有輸出都是直接從關鍵點估計產生的,而不需要基於IOU的非最大抑制(NMS)或其他後處理。峯值鍵點提取作爲一種充分的NMS替代方案,可以在設備上使用3×3最大池操作進行有效的實現。(?)

  3. Hourglass-104能在COCO數據集上達到42.2%的準確率和7.8FPS。具體實驗結果參考論文。
    在這裏插入圖片描述

發佈了23 篇原創文章 · 獲贊 2 · 訪問量 9802
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章