點擊下面卡片關注 “AI算法與圖像處理 ”，選擇加"星標"或“置頂”

重磅乾貨，第一時間送達

僅單尺度測試，在COCO上最高可高達56.4 mAP！超越現所有網絡，如ScaledYOLOv4、GFLV2等，其中一個版本，49.2 mAP/33FPS！代碼剛剛開源！
作者單位：UT Austin, Intel

1 簡介

我們都知道目標檢測的目的就是找到圖像中的所有目標，並識別它們的位置和屬於某一類的概率。One-Stage目標檢測在一個框架中共同推斷位置和類別的概率。通過訓練它們最大限度地提高其框的精度和預測概率的精度，並在最後應用到推理之中。

Two-Stage檢測器首先發現潛在目標及其位置，然後(在第2階段)對這些潛在目標進行分類。第1階段的目的是最大限度地召回目標，而第2階段是最大限度地在第1階段過濾的目標。

而本文通過優化Two-Stage的聯合概率目標的下界，提出了一個簡單的改進標準Two-Stage檢測器訓練方法。概率處理建議對Two-Stage架構進行更改。具體來說，第1階段需要推斷一個校準目標的似然性。目前Two-Stage目標檢測中的RPN是爲了最大化召回而設計的，不產生準確的可能性。然而，One-Stage方法可以。

在目前最先進的One-Stage檢測器的基礎上建立了一個概率Two-Stage檢測器。對於每一階段的檢測，CenterNet2模型都會提取區域級特徵並進行分類。在第2階段使用更快的R-CNN或級聯分類器。這兩個階段一起訓練，以最大限度地提高預測的概率準確度。在推理中，CenterNet2使用這個最終的對數似然作爲檢測得分。

概率Two-Stage檢測器比One-Stage檢測器和Two-Stage檢測器更快、更準確。與基於Anchor的Two-Stage檢測器相比，CenterNet2的第1階段更準確，允許檢測器在RoI頭部使用更少的建議，使檢測器整體上更準確和更快。與One-Stage檢測器相比，CenterNet2的第1階段使用了更精簡的Head設計，並且只有一個輸出類用於密集圖像水平預測。由於類別數量的急劇減少所帶來的加速，遠遠超過了第2階段的額外成本。CenterNet2的第2階段充分利用了多年來Two-Stage檢測器的進展，並在一階段基線上顯著提高了檢測精度。

實驗表明，CenterNet2檢測器通過單尺度測試在COCO測試開發上達到了56.4mAP，優於所有已發佈的結果。CenterNet2檢測器使用輕量級Backbone，在Titan Xp上以33fps的速度在COCO上實現了49.2mAP的性能，優於Scaled YOLOv4。

2 相關工作

2.1 One-Stage Detectors

One-Stage Detectors同時預測輸出類的概率和目標的位置。

RetinaNet對一組預定義的滑動錨框進行分類，並通過調整每個輸出的損失來處理前景-背景不平衡。

FCOS和CenterNet消除了每像素多個錨點的問題，並根據位置對前景/背景進行分類。

ATSS和PAA通過改變前景和背景的定義來進一步改進FCOS。

GFL和Autoassign改變Hard Foreground-Background分配爲加權軟分配。

AlignDet在輸出之前使用一個可變形的卷積層來收集更豐富的分類和迴歸特徵。

RepPoint和DenseRepPoint將邊界框編碼爲一組輪廓點，並使用點集特徵進行分類。

BorderDet沿着邊界框池化特徵以實現更好的localization。

大多數One-Stage Detectors都有可靠的概率解釋。雖然One-Stage Detectors取得了具有競爭力的性能，但與Two-Stage Detectors相比，它們通常依賴於單獨分類和迴歸分支。事實上，如果類別很大(如LVIS或Objects365數據集)，它們不再比Two-Stage Detectors更快。此外，One-Stage Detectors僅使用正樣本的局部特徵進行迴歸和分類，這有時與目標不對齊。

而本文提出的概率Two-Stage Detector框架分解了多個階段的概率分佈並保留了One-Stage Detector的概率解釋，同時提高了準確性和速度。

2.2 Two-Stage Detectors

Two-Stage Detector首先使用區域建議網絡(RPN)生成粗糙的區域建議框，然後使用一個專用的檢測頭對它們進行分類和迴歸。

Fast-RCNN使用2個連接層作爲RoI頭部。

Cascade-RCNN使用FasterRCNN的3個級聯階段，每個階段都有不同的正閾值，以便後期更多地關注定位精度。

HTC利用額外的實例和語義分割標註來增強Cascade-RCNN的級間特徵流。

TSD對每個RoI的分類和Localization分支進行解耦。

Two-Stage Detector在許多情況下仍然更精確。目前，所有Two-Stage Detector都使用一個相對較弱的RPN，最大限度地召回排名前1K的預選框，並且不使用測試時的預選框分數。大量的預選框減慢了速度，並且基於召回的建議網絡不能直接提供與One-Stage Detector相同的概率。

CenterNet2框架解決了這個問題，並將一個強大的One-Stage Detector與後面的分類階段集成在一起。在第1階段使用更少、質量更高的預選框，以輸出更高的準確性和更快的速度。

2.3 Anchor Free && DETR

也有很多的檢測器通過圖像中的點來識別物體。

CornerNet則是檢測左上角和右下角，並使用嵌入特徵對它們進行分組。

ExtremeNet檢測四個極值點，並使用一個額外的中心點對它們進行分組。

Duan等人通過檢測中心點來改善Corner的分組。

Corner Proposal Net使用成對的角落分組作爲區域提議。

CenterNet檢測中心點，並從中迴歸邊界框參數。

DETR和變形DETR去除檢測器中的密集輸出，而使用Trnasformer直接預測一組Bounding Boxes。

基於Corner的檢測器、DETR與傳統檢測器的主要區別在於網絡結構。基於Corner的檢測器使用全卷積網絡，通常具有對稱的下采樣層和上採樣層，並以較小的步長生成單個特徵圖。DETR式檢測器使用Trnasformer作爲解碼器。

傳統的One-Stage和Two-Stage檢測器通常使用由輕量化上採樣層增強的圖像分類網絡，併產生多尺度特徵(FPN)。

3 Two-Stage檢測的概率解釋

對於每一幅圖像，檢測的目標是產生個邊界框，並且每個候選框的類分佈服從分佈。在這個工作，CenterNet2保持邊界框迴歸不變，只關注類分佈。

一個Two-Stage檢測器將這種分佈分解爲2部分:類別不可知對象似然性 (第一階段)和條件類別分類 (第二階段)。這裏表示第一階段的前景，表示背景。

任何陰性檢測導致背景分類: 。在一個多級檢測器中，分類是由多個級聯級的集合完成的，而Two-Stage檢測器使用一個單一的分類器。那麼兩Two-Stage模型的聯合類分佈爲:

這裏使用極大似然估計訓練檢測器。對於目標類，最大化：

對於背景類，最大似然:

這一目標將第1階段和第2階段的概率估計與損失和梯度計算聯繫在一起。準確的評價需要對第2階段的所有第1階段產出進行密集的評價，這將大大降低訓練的速度。相反，文中推出了2個下界的目標共同優化。第1個下界使用Jensen不等式:

其中， , :

這個下界最大化了第1階段中任何高分對象的第2階段背景的對數似然。這裏的 , ，但是這個界限可能會被鬆弛爲 , ，於是第2界只涉及第一階段的目標：

它使用和單調。對於來說，這個界限是緊密的。理想情況下，最緊密的界限是通過使用前式的最大值來獲得的。在實踐中同時優化2個邊界可以得到更好的結果。

有了下界Eq.(4)和正目標Eq.(2)，第1階段的訓練簡化爲最大似然估計，在標註對象上使用正標籤，在所有其他位置使用負標籤。這相當於訓練一個二元一級檢測器，或者一個RPN。

4 檢測器的選擇

公式和標準的Two-Stage檢測器的關鍵區別在於在檢測得分中使用了類不可知檢測。在概率形式中，分類分數乘以類別不可知檢測分數。這需要一個強大的第一階段檢測器，不僅最大限度地召回建議框，而且還可以爲每個建議框預測一個可靠的目標概率。在實驗中，作者使用比較好的One-Stage檢測器來估計這個對數似然概率。

概率Two-Stage檢測器的核心部件是Stronge First Stage。第1階段需要預測一個準確的目標可能性，以告知整體檢測分數，而不是最大化目標覆蓋範圍。在流行的One-Stage檢測器的基礎上實驗了4種不同的設計。對於每一個檢測器，作者強調了將它們從One-Stage檢測器轉換爲概率Two-Stage檢測器中的第1階段所需的檢測器。

4.1 RetinaNet

RetinaNet與傳統的Two-Stage檢測器的RPN非常相似，但有三個關鍵區別:

較重的Head設計(4層vs1層 in RPN)；
更嚴格的正負錨定定義；
Focal Loss。

這些組件中的每一個都提高了RetinaNet產生校準的One-Stage檢測可能性的能力。

作者在第一階段的設計中使用了所有這些。默認情況下，RetinaNet使用兩個單獨的頭部來進行邊界框迴歸和分類。在第一階段設計中發現兩個任務有一個共享的Head就足夠了，因爲對象或非對象分類更容易並且需要更少的網絡容量。這也加快了推理速度。

4.2 CenterNet

CenterNet將對象作爲位於其中心的關鍵點，然後迴歸到方框參數。原始的CenterNet在單個尺度上運行，而傳統的Two-Stage檢測器使用特徵金字塔(FPN)。而本文使用FPN將CenterNet升級到多尺度。

具體來說，使用Retinaanet Style的ResNet-FPN作爲主幹，從stride=8到128輸出特徵映射。將四層分類分支和迴歸分支應用於FPN的所有層次，以產生檢測熱圖和邊界框迴歸圖。

在訓練過程中，根據對象大小，在固定的分配範圍內，將ground-truth center標註分配給特定的FPN級別。受到GFL的啓發，在3×3中心附近添加了一些位置，這些位置已經產生了高質量的邊界框作爲正數。使用到邊界的距離作爲邊界框表示，並使用gIoU損失作爲邊界框迴歸損失函數。作者將改進後的CenterNet稱爲CenterNet*。

4.3 ATSS

ATSS用自適應的IoU閾值對One-Stage檢測器的分類概率進行建模，並使用centerness來校準分數。在一個概率的Two-Stage Baseline中使用的是ATSS，並乘以中心和前景分類得分爲每個proposal。再次合併分類和迴歸Head，以稍微加速。

4.4 GFL

GFL使用迴歸質量來指導目標似然訓練。在概率Two-Stage Baseline中刪除基於積分的迴歸，僅使用基於距離的迴歸來保持一致性，並再次合併2個Head。

5 實驗

5.1 基礎Two-Stage模型實驗

One-Stage架構推斷出 )。對於每一個將它們與第二階段的推斷相結合。作者實驗了2個基本的第二階段設計:FasterRCNN和CascadeRCNN。

每一個概率Two-Stage FasterRCNN模型在mAP上都比它的一級前身提高了1-2個百分點，在mAP上比原來的兩階段FasterRCNN提高了3個百分點。更有趣的是，由於更精簡的頭部設計，每個Two-Stage的概率FasterRCNN都比它的一級前身更快。

由於更有效的FPN和概率檢測器使用更少的proposal，許多概率Two-Stage FasterRCNN模型比原始的兩階段FasterRCNN更快。

在CascadeRCNN模型中觀察到類似的趨勢。在這些概率Two-Stage模型中，CascadeRCNN-CenterNet設計表現最好。

5.2 Real-Time模型實驗

在相同的backbone和訓練下，CenterNet2比realtime-FCOS性能好1.6個mAP，並且只慢4毫秒。使用相同的基於FCOS的Backbone和更長的訓練，它在原來的CenterNet上改進了7.7mAP，並輕鬆地超越了流行的YOLOv4和效率更高的檢測器，在40fps下有45.6mAP。使用稍微不同的FPN結構，並結合Self-Training，CenterNet2以33幀每秒的速度獲得49.2mAP。雖然現有的大多數實時檢測都是One-Stage，但在這裏，作者展示了Two-Stage檢測其也可以像One-Stage一樣快，同時提供更高的精度。

5.3 SOTA模型對比

作者這裏使用了一個更強的Backbone Res2Net-BiFPN,一個更大的輸入分辨率(訓練用：1560x1560，測試用：1280x1280測試)和heavy crop augmentation(0.1-2),和一個長的時間Self-Training來標記圖像。最終模型單模型達到56.4 mAP，優於所有發表的所有模型。

6 參考

[1].Probabilistic two-stage detection
[2].https://github.com/xingyizhou/CenterNet2

  
     
     
     
   
      
      
      

  
     
     
     
  
     
     
     
   
      
      
      論文與源碼
  
     
     
     
  
     
     
     
   
      
      
      鏈接: https://pan.baidu.com/s/1YGjEBvo2C_1CDlm-UPdNeg
  
     
     
     
  
     
     
     
   
      
      
      提取碼: if9p
  
     
     
     
  
     
     
     
   
      
      
      

  
     
     
     
  
     
     
     
   
      
      
      個人微信（如果沒有備註不拉羣！）
  
     
     
     
  
     
     
     
   
      
      
      請註明：
   
      
      
      地區+學校/企業+研究方向+暱稱
  
     
     
     
  
     
     
     
   
      
      
      

  
     
     
     


下載1：何愷明頂會分享

在「AI算法與圖像處理」公衆號後臺回覆：何愷明，即可下載。總共有6份PDF，涉及 ResNet、Mask RCNN等經典工作的總結分析

下載2：終身受益的編程指南：Google編程風格指南

在「AI算法與圖像處理」公衆號後臺回覆：c++，即可下載。歷經十年考驗，最權威的編程規範！


   
   
   
 
    
    
    下載3 CVPR2021

   
   
   

   
   
   
 
    
    
    


   
   
   

   
   
   
 
    
    
    在「AI算法與圖像處理」公衆號後臺回覆：
 
    
    
    CVPR
 
    
    
    ，即可下載1467篇CVPR 2020論文 和 CVPR 2021 最新論文

點亮，告訴大家你也在看

本文分享自微信公衆號 - AI算法與圖像處理（AI_study）。
如有侵權，請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”，歡迎正在閱讀的你也加入，一起分享。

56.4 AP！超越YOLOv4，更快更強的CenterNet2來了！

1 簡介

2 相關工作

2.1 One-Stage Detectors

2.2 Two-Stage Detectors

2.3 Anchor Free && DETR

3 Two-Stage檢測的概率解釋

4 檢測器的選擇

4.1 RetinaNet

4.2 CenterNet

4.3 ATSS

4.4 GFL

5 實驗

5.1 基礎Two-Stage模型實驗

5.2 Real-Time模型實驗

5.3 SOTA模型對比

6 參考

Python 爬蟲：Spring Boot 反爬蟲的成功案例

京東科技數字化營銷能力的演進與最佳實踐| 京東雲技術團隊

別魔改網絡了，Google研究員：模型精度不高，是因爲你的Resize方法不夠好！

深度學習中圖像分割經典算法和必備知識點整理

算！力！羊！毛！5000核時計算資源終於開放使用了！

部署教程 | ResNet原理+PyTorch復現+ONNX+TensorRT int8量化部署

YOLOS：通過目標檢測重新思考Transformer（附源代碼）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結