單階段檢測器的新紀錄 51.1AP!即插即用的檢測器換頭術,顯著提升性能

點擊下方AI算法與圖像處理”,一起進步!

重磅乾貨,第一時間送達

作者丨happy
編輯丨極市平臺

導讀

 

本文提出通過顯式方式:T-head(即插即用的模塊)+TAL 改善單階段檢測器存在的任務不對齊問題,所提的TOOD在COCO數據集上取得了51.1AP指標,超越了包含ATSS、GFL、PAA、OTA等在內的單階段檢測。

本文將單階段檢測器在COCO數據集上的性能刷新到了51.1AP。針對現有單階段檢測器分類與定位存在不對齊問題,本文提出了一種新穎T-Head對其進行平衡;同時還提出了TAL在訓練過程中對兩個任務的最優anchor進行顯式靠攏(甚至統一)。受益於所提到的T-Head與TAL,所提方法TOOD刷新了COCO數據集上的單階段檢測器性能,達到了51.1AP,超過了GFLv2、OTA、IQDet等方案。

pape: https://arxiv.org/abs/2108.07755

code: https://github.com/fcjian/TOOD

Abstract

單階段目標檢測往往通過優化兩個子任務進行實現:目標分類與目標定位,兩者採用兩個並行分支,這種處理方式可能會導致一定程度上的空間不對齊問題。

作者提出一種任務對齊單階段目標檢測(Task-aligned One-stge Object Detection ,TOOD),它通過學習的方式對兩個任務進行顯式對齊。首先,作者設計了一種新穎的T-Head(Task-aligned Head),它可以爲任務交互以及任務相關特徵提供更好的平衡,還可以通過任務對齊預測器爲學習對齊提供更好的靈活性。其次,作者提出了TAL(Task Alignment Learning)在訓練過程中通過採樣分配機制與任務對齊損失將兩個任務最終的anchor進行顯式靠攏(甚至統一)。

作者在MS-COCO數據集上進行了充分了實驗,憑藉單模型單尺度測試,TOOD取得了51.1AP指標,大幅超過了已有單階段檢測(比如ATSS的47.7AP、GFL的48.2AP、PAA的49.0AP),同時具有更少的參數量、FLOPs。此外,定量分析結果同樣表明:TOOD可以更好的對目標分類與目標定位兩個任務進行對齊。

本文主要貢獻包含以下三點:

  • 設計了一個新的T-Head以增強分類與定位之間的相互作用,同時保持各自的特性,此外在預測過程中對兩個任務進行對齊;
  • 提出了TAL對兩個任務進行顯式對齊,同時爲所提預測器提供學習信號;
  • 所提 TOOD在COCO數據集上取得了51.1AP指標,超越了包含ATSS、GFL、PAA、OTA等在內的單階段檢測。

Method

類似於近期提出的單階段檢測器,所提TOOD採用了類似的架構:backbone-FPN-head。考慮到效率與簡單性,類似ATSS, TOOD在每個位置放置一個anchor,即anchor-free。正如所討論的,由於分類與定位任務的發散性,現有單階段檢測器存在任務不對齊(task misalignment)約束問題。本文提出通過顯式方式採用T-head+TAL對兩個任務進行對齊,見上圖。T-head與TAL通過協同工作方式改善兩個任務的對齊問題,具體來說,T-head首先在FPN特徵基礎上進行分類與定位預測;然後TAL基於所提任務對齊測度計算任務對齊信息;最後T-head根據從TAL傳回的信息自動調整分類概率與定位預測。

Task-aligned Head

作者的目標是設計一種高效Head結構以改善現有單階段檢測器中的Head(見上圖a),針對此,作者主要從以下兩個角度進行考量:

  • 提升兩個任務之間的相互作用;
  • 增強檢測器學習對齊的能力。

本文所提T-Head見上圖b,它具有非常簡單的結構:特徵提取+TAP。爲增強分類與定位之間的相互作用,作者通過特徵提取器學習任務交互(task-interactive)特徵,見Figure3b中藍色框部分。這種設計不僅有助於任務交互,同時可以爲兩個任務提供多級多尺度特徵。假設 表示FPN特徵,特徵提取器採用N個連續卷積計算任務交互特徵:

因此,通過特徵提取器我們可以得到豐富的多尺度特徵並用於送入到後續兩個TAP模塊中進行分類與定位對齊。

Task-aligned Predictor(TAP) 作者在前述所計算的任務交互特徵基礎上進行目標分類與定位,此時兩個任務可以很好的感知到相互之間的狀態信息。然而,由於單分支設計因素,任務相關特徵不可避免地會引入一定程度地特徵混淆。只管來講,目標分類與目標定位具有完全不同地目標,因此聚焦於不同類型地特徵(比如,不同層級、不同感受野)。因此,作者提出採用注意力機制進行任務分解,見上面Figure3c。此時所得特徵我們稱之爲任務相關(task-specific)特徵,描述如下:

注:這裏的w採用類似SE注意力方式得到。最後,在上述特徵基礎上進行分類與定位:

Prediction alignment 在預測階段,我們進一步對兩個任務通過調整空間分佈進行自適應對齊。不同於已有工作採用centerness分之或者IoU分支僅調整分類預測,我們對兩個預測同時進行對齊,見Figure3c。從圖示可以看到:我們採用空域概率圖 調整分類預測:

與此同時,爲對定位預測進行對齊,我們進一步學習了空域移位圖 以調整每個位置預測的目標位置信息。具體調整方式如下:

通過上述對齊,我們可以進行更精確的目標定位。因此,所提方法不僅對兩個任務進行了對齊,同時提升了定位精度。上面提到的兩個對齊圖學習方式如下:

注:M與O的學習是在TAL中實現,將在下面的內容進行介紹。此外需要注意的是:T-Head是一個獨立模塊,可以在無TAL的條件下工作。也即是說,T-Head可以通過“即插即用”方式快速應用到不同的單階段檢測器中並提升檢測性能。

Task Alignment Learning

我們進一步引入TAL引導T-Head進行任務對齊預測。相比已有工作,TAL有以下兩個不同:

  • 它是從任務對齊角度出發設計得到;
  • 它同時考慮了anchor分配與加權同步。

Task-aligned Sample Assignment

爲與NMS搭配,訓練樣例的anchor分配需要滿足以下規則:

  • 正常對齊的anchor應當可以預測高分類得分,同時具有精確定位;
  • 不對齊的anchor應當具有低分類得分,並在NMS階段被抑制。

基於上述兩個規則,我們設計了一種新的anchor對齊度量以顯示度量anchor層面的任務對齊度。該對齊度量將集成到樣本分配與損失函數中以動態提煉每個anchor的預測。

Anchor alignment metric 考慮到分類得分與IoU表徵了預測質量,我們採用兩者的高階組合度量任務對齊度,公式定義如下:

其中,s與u分別表示分類得分與IoU值,而 用於控制兩者的影響。因此, 在聯合優化中起着非常重要的作用,它激勵網絡動態的聚焦於高質量的anchor。

Training sample assignment 正如已有研究表明,訓練樣例分配對於檢測器的訓練非常重要。爲提升兩個任務的對齊性,我們聚焦於任務對齊anchor,採用一種簡單的分配規則選擇訓練樣本:對每個實例,我們選擇m個具有最大t值的anchor作爲正樣例,選擇其餘的anchor作爲負樣例。然後,通過新的損失函數(針對分類與定位的對齊而設計的損失函數)任務進行訓練。

Task-aligned Loss

Classification objective 爲顯示提升對齊anchor的分類得分,同時降低不對齊者得分,我們在訓練過程中採用 替換正anchor的標籤。然而,我們發現:當標籤變小後網絡無法收斂。因此,我們採用規範化 進行替代,這裏規範化後的 滿足以下兩個屬性:

  • 確保hard-instance的有效學習;
  • 保持instance之間的排序關係。

因此,我們採用一種簡單的實例級規範化調整 的尺度。因此BCE重寫如下:

與此同時,我們採用Focal Loss緩解正負樣本不平衡問題。因此,最終的分類損失定義如下:

Localization objective bbox(Bouding box)通過對齊的anchor(具有更大的分類得分、更精確的定位)預測得到,這樣的bbox通常經過NMS後仍可以得以保留。此外, 可以在訓練階段通過對損失加權選擇高質量的bbox。因此,我們採用 度量bbox的質量。類似分類目標,我們將定位優化目標調整爲如下形式:

注:訓練過程中,TAL的總損失則是上述兩個損失相加。

Experiments

上表對比了不同單階段檢測器的性能,從中可以看到:

  • 當採用ResNet101、ResNeXt-101-64x4d作爲骨幹時,TOOD分別取得了46.7AP與48.3AP指標,以3AP指標超過了ATSS, 以2AP指標超過了GFL;
  • 當採用ResNet101-DCN, ResNeXt-101-64x4d-DCN作爲骨幹時,TOOD取得了更大的性能提升(從48.3AP提升到51.1AP,提升幅度達2.8AP)。
  • TOOD在單階段目標檢測方面取得了新的記錄:51.1AP。

Ablation Study

上表Head結構進行了消融分析,從中可以看到:當以“即插即用”方式將T-Head嵌入到不同單階段檢測器後均可以看到顯著的性能提升,從0.7~1.9AP不等同時具有更少的參數量與FLOPs

上表在採樣分配方面進行了消融分析,從中可以看到:相比此前最佳PAA,所提TAL+TAP組合可以取得1.6AP指標提升達到42.5AP

上表對比了TOOD在Anchor-free與Anchhor-based兩種檢測器中的性能對比,可以看到:

  • Anchor-free版TOOD與Anchor-based版TOOD具有相近的性能:42.5AP vs 42.4 AP。
  • 相比ATSS,TOOD取得了3.2AP指標提升。

全文到此結束,更多消融實驗與分析建議查看原文。


本文亮點總結


1. 本文提出通過顯式方式採用T-head+TAL對兩個任務進行對齊。T-head與TAL通過協同工作方式改善兩個任務的對齊問題,具體來說,T-head首先在FPN特徵基礎上進行分類與定位預測;然後TAL基於所提任務對齊測度計算任務對齊信息;最後T-head根據從TAL傳回的信息自動調整分類概率與定位預測。

2. 本文所提T-Head具有非常簡單的結構:特徵提取+TAP。爲增強分類與定位之間的相互作用,作者通過特徵提取器學習任務交互(task-interactive)特徵。這種設計不僅有助於任務交互,同時可以爲兩個任務提供多級多尺度特徵。

努力分享優質的計算機視覺相關內容,歡迎關注:
     
        
        
        
個人微信(如果沒有備註不拉羣!
請註明: 地區+學校/企業+研究方向+暱稱



下載1:何愷明頂會分享


AI算法與圖像處理」公衆號後臺回覆:何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經典工作的總結分析


下載2:終身受益的編程指南:Google編程風格指南


AI算法與圖像處理」公衆號後臺回覆:c++,即可下載。歷經十年考驗,最權威的編程規範!



   
      
      
      
下載3 CVPR2021

AI算法與圖像處公衆號後臺回覆: CVPR 即可下載1467篇CVPR 2020論文 和 CVPR 2021 最新論文

本文分享自微信公衆號 - AI算法與圖像處理(AI_study)。
如有侵權,請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章