ICCV2021 | 首個CNN+Transformer的backbone 模型！Conformer準確率高達84.1%！

原創

2021-08-17 21:15

點擊下方“AI算法與圖像處理”，一起進步！
重磅乾貨，第一時間送達

來源：新智元

【導讀】Transformer和CNN在處理視覺表徵方面都有着各自的優勢以及一些不可避免的問題。因此，國科大、鵬城實驗室和華爲研究人員首次將二者進行了融合並提出全新的Conformer模型，其可以在不顯著增加計算量的前提下顯著提升了基網表徵能力。論文已被ICCV 2021接收。

卷積運算善於提取局部特徵，卻不具備提取全局表徵的能力。

爲了感受圖像全局信息，CNN必須依靠堆疊卷積層，採用池化操作來擴大感受野。

Visual Transformer的提出則打破了CNN在視覺表徵方面的壟斷。

得益於自注意力機制，Visual Transformer (ViT、Deit)具備了全局、動態感受野的能力，在圖像識別任務上取得了更好的結果。

但是受限於的計算複雜度，Transformer需要減小輸入分辨率、增大下采樣步長，這造成切分patch階段損失圖像細節信息。

因此，中國科學院大學聯合鵬城實驗室和華爲提出了Conformer基網模型，將Transformer與CNN進行了融合。

Conformer模型可以在不顯著增加計算量的前提下顯著提升了基網表徵能力。目前，論文已被ICCV 2021接收。

論文地址：https://arxiv.org/abs/2105.03889

項目地址：https://github.com/pengzhiliang/Conformer

此外，Conformer中含有並行的CNN分支和Transformer分支，通過特徵耦合模塊融合局部與全局特徵，目的在於不損失圖像細節的同時捕捉圖像全局信息。

特徵圖可視化

對一張背景相對複雜的圖片的特徵進行可視化，以此來說明Conformer捕捉局部和全局信息的能力：

淺層Transformer(DeiT)特徵圖（c列）相比於ResNet（a列）丟失很多細節信息，而Conformer的Transformer分支特徵圖（d列）更好保留了局部特徵；
從深層的特徵圖來看，DeiT特徵圖（g列）相比於ResNet（e列）會保留全局的特徵信息，但是噪聲會更大一點；
得益於Transformer分支提供的全局特徵，Conformer的CNN分支特徵圖（f列）會保留更加完整的特徵（相比於e列）；
Transformer分支特徵圖（h列）相比於DeiT（g列）則是保留了更多細節信息，且抑制了噪聲。

網絡結構

Conformer是一個並行雙體網結構，其中CNN分支採用了 ResNet結構，Transformer分支則是採用了 ViT結構。

網絡結構圖

（c）展示了Conformer的縮略圖：一個標準的ResNet stem結構，兩條並行分支，兩個分類器。

（b）展示了每個block中Trans和Conv的連接關係：以2個bottleneck爲例，經過第一個bottleneck 3x3卷積後的局部特徵經過特徵耦合模塊（FCU）傳給Transformer block。

Transformer block將此局部特徵與前一個Trans block的全局特徵相加通過當前的trans block，運算結束後再將結果通過FCU模塊反傳給Conv block。

Conv block的最後一個bottleneck將其與經過1x1卷積後的局部特徵相加，一起輸入3x3卷積。

之所以將Transformer block夾在兩個3x3卷積之間的原因有兩個：

bottleneck中3x3卷積的channel比較少，使得FCU的fc層參數不會很大；
3x3卷積具有很強的位置先驗信息，保證去掉位置編碼後的性能。

實驗結果

Conformer網絡在ImageNet上做了分類實驗，並做爲預訓練模型在MSCOCO上做了目標檢測和實例分割實驗。

分類準確率對比

參數量爲37.7M，計算量爲10.6GFlops的Conformer-S超過了參數量爲86.6M，計算量爲17.6GFlops的DeiT-B 約1.6%的準確率。

當Conformer-S增大參數量到83.3M，準確率則是達到 84.1% 。

不同基網在分類速度和準確率上的對比

目標檢測和實例分割結果的對比

運行幀率爲：

目標檢測和實例分割幀率對比

在使用FPN+Faster Mask R-CNN框架時，Conformer-S/32在幀率/參數/計算量可比的情況下，目標檢測精度超過Faster RCNN 3.7% ，實例分割超過Mask R-CNN 3.6% 。

分析總結

Conformer是第一個並行的CNN和Transformer混合網絡，通過提出的特徵耦合模塊FCU在每個階段的局部特徵和全局特徵都會進行交互，使得Conformer兼具兩者的優勢。

在分類上，能夠以更小的參數和計算量取得更高的準確率，在目標和實例分割上也能一致地取得大幅度的提升。

目前Conformer只是在ImageNet1K數據集合上訓練，其結合更大預訓練數據（如ImageNet21K）集合以後將成爲一種很有潛力的基網結構。

作者介紹

彭智亮、黃瑋，中國科學院大學在讀碩士生

顧善植，鵬城實驗室工程師

王耀威，鵬城實驗室研究員

謝凌曦，華爲公司研究員

焦建彬、葉齊祥，中國科學院大學教授

參考資料：

https://arxiv.org/abs/2105.03889

努力分享優質的計算機視覺相關內容，歡迎關注：

     
        
        
        
      
         
         
         個人微信（如果沒有備註不拉羣！）
     
        
        
        
     
        
        
        
      
         
         
         請註明：
      
         
         
         地區+學校/企業+研究方向+暱稱
     
        
        
        
     
        
        
        
      
         
         
         

     
        
        
        


下載1：何愷明頂會分享

在「AI算法與圖像處理」公衆號後臺回覆：何愷明，即可下載。總共有6份PDF，涉及 ResNet、Mask RCNN等經典工作的總結分析

下載2：終身受益的編程指南：Google編程風格指南

在「AI算法與圖像處理」公衆號後臺回覆：c++，即可下載。歷經十年考驗，最權威的編程規範！


   
      
      
      
    
       
       
       

   
      
      
      
   
      
      
      
    
       
       
       下載3 CVPR2021
   
      
      
      
   
      
      
      
    
       
       
       

   
      
      
      
   
      
      
      
    
       
       
       在「AI算法與圖像處理」公衆號後臺回覆：
    
       
       
       CVPR
    
       
       
       ，即可下載1467篇CVPR 2020論文 和 CVPR 2021 最新論文

本文分享自微信公衆號 - AI算法與圖像處理（AI_study）。
如有侵權，請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”，歡迎正在閱讀的你也加入，一起分享。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

ICCV2021 | 首個CNN+Transformer的backbone 模型！Conformer準確率高達84.1%！

`點擊下方“AI算法與圖像處理”，一起進步！重磅乾貨，第一時間送達`

別魔改網絡了，Google研究員：模型精度不高，是因爲你的Resize方法不夠好！

深度學習中圖像分割經典算法和必備知識點整理

算！力！羊！毛！5000核時計算資源終於開放使用了！

部署教程 | ResNet原理+PyTorch復現+ONNX+TensorRT int8量化部署

YOLOS：通過目標檢測重新思考Transformer（附源代碼）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結