Object as Point
從關鍵點檢測的角度進行anchor-free目標檢測
-
輸入Image
輸出heatmap
R表示output stride,通常爲4,輸出對輸入下采樣R倍。
C在目標檢測中表示類別數,coco數據集時C=80.
論文使用三種不同的全卷積的encoder-decoder網絡:hourglass,ResNet,DLA -
用CornerNet的方法,使用高斯核函數,將GT轉化爲heatmap。
網絡使用focal loss,損失函數爲:
爲了恢復由輸出步長(stride)引起的離散誤差,網絡同時預測了局部偏移。所有的類別c共享相同的局部偏移。損失函數使用L1 loss。監督只用於關鍵點 。
是類別k的bbox,目標尺寸定義爲。在目標中心點使用L1損失函數,不對比例尺進行規範化,直接使用原始像素座標:
因此網絡的總損失函數爲:
-
網絡預測類別C,偏移O和尺寸S。對 中的每個輸出位置,輸出C+4個結果,C表示類別,4表示偏移和尺寸。所有輸出共享一個全卷積主幹網絡。
-
在檢測階段,首先提取每個類別在heatmap圖上的峯值(其值大於相鄰的8個鄰點,並取前100個。我們用作爲點點上屬於類別c的置信度。,爲偏移量預測,,爲尺寸預測。則我們可以計算出bbox的邊界框座標:
所有輸出都是直接從關鍵點估計產生的,而不需要基於IOU的非最大抑制(NMS)或其他後處理。峯值鍵點提取作爲一種充分的NMS替代方案,可以在設備上使用3×3最大池操作進行有效的實現。(?) -
Hourglass-104能在COCO數據集上達到42.2%的準確率和7.8FPS。具體實驗結果參考論文。