GFLV2:邊界框不確定性的進一步融合,提點神器 | CVPR 2021

  GFLV2基於GFLV1的bbox分佈進行改進,將分佈的統計信息融入到定位質量估計中,整體思想十分創新和完備,從實驗結果來看,效果還是挺不錯的

來源:曉飛的算法工程筆記 公衆號

論文: Generalized Focal Loss V2: Learning Reliable Localization Quality Estimationfor Dense Object Detection

Introduction


  GFL系列方法將bbox的四個值預測轉化爲四個分佈預測,能夠在輸出預測值的同時根據分佈判斷預測值的預測可靠性。如圖1c和圖1d所示,高可靠性的預測結果的分佈較爲集中,低可靠性的預測結果的分佈則較爲分散。另外,論文將GFL的每個bbox的四個分佈的最大值的均值與實際的IoU進行了對比,發現有較高的關聯性,表明GFL的分佈預測效果還是不錯的。

  在當前的目標檢測算法中,定位質量(Localization Quality Estimation, LQE)越來越得到重視。LQE不僅能夠幫助留下高質量的預測框,還可以避免NMS的誤消除。之前的方法大都從卷積特徵直接進行LQE,如圖2左所示,主要是特徵採用上做文章,但實際上這些採樣的特徵更多是跟分類相關的。如前面所述,GFL預測的bbox分佈信息與實際IoU有較強的關聯性,於是論文將其融入LQE中,提出了GFLV2,如圖2右所示。
  論文的主要貢獻如下:

  • 首次將bbox分佈信息融入到定位質量預測中進行端到端的目標檢測。
  • GFLV2整體架構輕量且消耗極少,能夠嵌入到其它框架中帶了~2AP的提升。
  • GFLV2在COCO中達到了53.3AP。

Generalized Focal Loss V1


  講GFLV2前先概括地總結一下GFLV1,主要有兩點,分別是Classification-IoU Joint Representation以及General Distribution of Bounding Box Representation,具體可以看Generalized Focal Loss:Focal loss魔改以及預測框概率分佈,保漲點 | NeurIPS 2020

Classification-IoU Joint Representation

  這一塊是GFLV1的其中一個核心,初衷是將解決訓練和推理過程定位質量預測和分類預測不一致的問題(訓練時分開訓練,推理時卻合併輸出),簡單點說就是直接將分類分支的輸出改爲IoU和分類的合併結果\(J=[J_1,J_2,\cdots,J_m]\)

  公式1將原本的離散的訓練目標轉成了連續的目標,爲了更好的進行訓練,論文也將原本用於離散值的Focal loss修改成用於連續值的Focal loss。

General Distribution of Bounding Box Representation

  GFLV1的另一個核心是將直接預測bbox的四個值改爲預測bbox的四個分佈\(P(x)\),bbox的每條邊的預測值可通過預設區域\([y_0, y_n]\)的積分\(\hat{y}=\int^{+\infty}_{-\infty}P(x)xdx=\int^{y_n}_{y_0}P(x)xdx\)獲得。爲了完成分佈的預測,將網絡的輸出變爲\(n\)個離散值,給定離散分佈特性\(\sum^n_{i=0}P(y_i)=1\),迴歸值\(\hat{y}\)的計算爲:

  相對於直接預測值,分佈\(P(x)\)還能反應預測值的可靠性。爲了網絡能夠更好地學習預測的分佈,論文還提出了針對分佈學習的損失函數進行引導。

Generalized Focal Loss V2


Decomposed Classification-IoU Representation

  GFLV1雖然解決了訓練和推理過程定位質量預測和分類預測不一致的問題,但僅用分類分支進行聯合概率的預測依然有其侷限性,所以GFLV2直接融合了分類\(C\)和迴歸\(I\)分支:

\(C=[C_1,C_2,\cdots,C_m]\),\(C_i\in [0, 1]\)\(m\)個類別的分類特徵,\(I\in[0,1]\)爲IoU特徵的標量。儘管\(J\)被分解成了兩個部分,但由於在訓練和推理階段都直接使用,依然可以避免不一致的問題。在計算時,先將分類分支的\(C\)和迴歸分支經過Distribution-Guided Quality Predictor(DGQP)得到的\(I\)進行結合,訓練時使用GFLV1提出的QFL進行監督訓練,推理時直接將聯合結果用於NMS中。

Distribution-Guided Quality Predictor

  DGQP是GFLV2的核心組件,通過小的子網將預測的分佈\(P\)的統計信息轉化爲IoU標量\(I\),用於生成分類-IoU聯合特徵。跟GFLV1一樣,將每條邊的相對距離\(\{l,r,t,b\}\)作爲迴歸目標,每個bbox生成對應四個離散的分佈\(P^w=[P^w(y_0),P^w(y_1),\cdots,P^w(y_n)]\)\(w\in {l,r,t,b}\)。如圖1所示,分佈\(P\)的平坦情況能夠反映bbox的質量,在實際計算中,論文選擇概率分佈\(P^w\)的Top-k值及其均值,concatenate後作爲基礎的統計特徵\(F\in\mathbb{R}^{4(k+1)}\)

  選擇Top-k值和均值有兩個好處:

  • 由於\(P^w\)的和固定爲1,Top-k值和均值能夠更好地反映分佈的平坦情況,比如值越大越尖,值越小則越平。

  • Top-k值和均值能夠使得統計特徵對分佈區域上的相對偏移不敏感,生成與目標尺寸無關的魯棒特徵。

  給定統計特徵\(F\)作爲輸入,使用小型子網\(\mathcal{F}(\cdot)\)進行IoU質量預測,子網主要由兩層全連接層構成,分別接ReLU和Sigmoid激活,IoU標量\(I\)的計算爲:

\(W_1\in\mathbb{R}^{p\times 4(k+1)}\),\(W_1\in\mathbb{R}^{1\times p}\)\(p\)爲channel維度。由於DGQP的結構十分輕量,所以幾乎不會對原本的訓練和推理造成過多的額外開銷。

  論文也嘗試用DFQP生成額外的特徵與分類特徵進行contatenate,然後再後續操作,但效果沒有直接融合好,具體可以看看實驗部分。

Experiment


  從整體結果來看,GFLV2在準確率和速度上都有不錯的表現,論文還有很多豐富的對比實驗,有興趣的可以去看看原文。

Conclusion


  GFLV2基於GFLV1的bbox分佈進行改進,將分佈的統計信息融入到定位質量估計中,整體思想十分創新和完備,從實驗結果來看,效果還是挺不錯的。



如果本文對你有幫助,麻煩點個贊或在看唄~
更多內容請關注 微信公衆號【曉飛的算法工程筆記】

work-life balance.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章