CVPR 2019 | 目標檢測之面向更高精度的包圍框迴歸

本文爲極市作者Panzer原創,歡迎加小助手微信(cv-mart) 備註:研究方向-姓名-學校/公司-城市(如:目標檢測-小極-北大-深圳),即可申請加入目標檢測、目標跟蹤、人臉、工業檢測、醫學影像、三維&SLAM、圖像分割等極市技術交流羣。

本文由CMU和曠視科技合作發表於CVPR2019,論文重點關注目標檢測任務中的包圍框迴歸問題,提出了一種區別於傳統smooth L1的新的損失函數,顯著提升了各類檢測器的定位精度。

file

論文地址:

http://openaccess.thecvf.com/content_CVPR_2019/html/He_Bounding_Box_Regression_With_Uncertainty_for_Accurate_Object_Detection_CVPR_2019_paper.html

代碼地址:

https://github.com/yihui-he/KL-Loss

背景介紹

在當前anchor-based類目標檢測器中,目標包圍框迴歸是一個不可或缺的組件,其目的是爲了得到更緊緻的更好地包圍在目標周圍的檢測框。儘管近年來anchor-based類目標檢測取得了長足進展,分類精度得到了突飛猛進的提升,大量的工作主要集中與網絡架構的設計、正負樣本的選取等,然而少有工作關注包圍框迴歸的問題。

從這一問題出發,作者分析了目前檢測器中通用的smooth L1損失函數的侷限性,提出了一種新的包圍框迴歸損失函數——KL loss,在網絡預測階段更有利於得到更高定位精度的檢測結果。作者通過在PASCAL VOC 2007和MS-COCO上的實驗驗證了該損失函數的有效性。

主要內容

包圍框參數化

目前檢測器中常用目標中心點座標和寬高file來表示一個包圍框,網絡只要預測與anchor-box的偏差!file,然後和利用ground truth計算得到的真實偏差進行比對得到訓練損失,如下式所示:

file

而本文采用上頂點下頂點座標file來表示一個包圍框,在預測目標位置的同時還要預測定位置信度。具體而言,將定位置信度簡化建模爲一個高斯分佈,如下式所示:

file

其中file是需要網絡進行學習的參數,高斯函數中的標準差代表預測值的不確定性,也即當其趨於0時意味着預測值置信度非常高。這一思路的具體實現爲在原有檢測頭的類別分類和位置迴歸兩個分支之外,再添加一個新的分支如下圖所示:

file

同樣ground truth也可以構建爲一個標準差趨於0的高斯分佈,如下式所示:

file

用於包圍框迴歸的KL loss

根據上一節的參數表示,本文的包圍框迴歸分支的目的是最小化式(2)和(3)中的filefile之間的KL散度,如下式所示:

file

則包圍框迴歸部分的損失函數定義如下:

file

上式後兩部分和網絡預測無關,所以包圍框迴歸部分的損失函數只和前兩部分有關:
file

對於不太準確的位置預測,上式會驅使網絡預測更大的使得損失最小。具體實現細節在此不再贅述,詳情可見原文。

測試階段的方差投票機制

對於測試階段而言,作者希望利用網絡預測的方差用於非極大值抑制(NMS)後處理階段來提高包圍框的定位精度。具體而言,對於一個分類得分較高的包圍框周圍的包圍框而言,我們希望將那些離它最近且定位不確定性較低的包圍框分配更高的權重,如下式所示:

file

本質上該機制主要用於nms或soft-nms中,算法流程圖如下:

file

實驗分析

實驗細節:

驗證實驗在PASCAL VOC 2007和MS-COCO上進行,對比實驗分別在CityPersons驗證集和Caltech測試集上和最新方法進行了全方位對比,評估指標採用行人檢測通用的Miss rate。

實驗結果:

file

從上表中的剝離實驗結果分析,以AP爲標準,利用KL loss帶來的性能提升有1.6個點,而在soft-nms的基礎上加上方差投票機制,又可以提升1.3個點,隨着對精度要求的提高,性能提升更爲明顯。此外值得一提的是加上方差投票機制只帶來2ms的耗時,顯然是一種經濟有效的漲點方案。

file

在上表中作者分析了不同檢測頭對採用KL loss能帶來的性能提升的影響,從上表中可以發現,無論採用什麼樣的檢測頭,採用KL loss帶來的性能提升是一致的,但利用resnet-50第五階段卷積層作爲檢測頭可以得到最明顯的性能提升,而採用兩層全連接層限制了KL loss帶來的性能提升。

file

上表給出了在MS-COCO上的實驗結果,作者採用的baseline爲ResNet-50-FPN Mask R-CNN,在soft-nms的加持下,本文所提出的方法可以將baseline提升1.8個點,有意思的是在AP50的評估標準下,性能指標卻有所下降,而在AP90評估標準下性能提升有6.2個點,充分說明了本文所提出的方法可以獲得較高的定位性能。

file

上表展示了在PASCAL VOC 2007上的實驗結果,可見無論在採用什麼基礎網絡架構下,本文提出的方法都能將mAP性能提升2-3個百分點。下圖給出了本文方法有效性的一個可視化例子,從上下兩列的對比來看,經過網絡預測的位置不確定性加權,包圍框能更緊緻地包圍在目標周圍。

file


總結

本文另闢蹊徑,重點關注目標包圍框的位置不確定性問題,圍繞這一問題,在訓練和測試階段分別進行了精心設計,在訓練階段提出了KL loss,測試階段提出了方差投票機制,實驗結果充分證明了提出方法的有效性。值得一提的是,發表於ICCV 2019的Gaussian YoloV3[1]與本文有異曲同工之妙,將在後續進行解讀。

參考文獻

[1] Gaussian YOLOv3: An Accurate and Fast Object Detector Using Localization Uncertainty for Autonomous Driving. ICCV2019.

-End-


相關文章:
目標檢測:Anchor-Free 時代
目標檢測中的不平衡問題綜述
DetNAS:首個搜索目標檢測 Backbone 的方法


file
△ 關注極市平臺

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章