ICCV2021 | 首個CNN+Transformer的backbone 模型!Conformer準確率高達84.1%!

點擊下方AI算法與圖像處理”,一起進步!

重磅乾貨,第一時間送達



來源: 新智元

【導讀】Transformer和CNN在處理視覺表徵方面都有着各自的優勢以及一些不可避免的問題。因此,國科大、鵬城實驗室和華爲研究人員首次將二者進行了融合並提出全新的Conformer模型,其可以在不顯著增加計算量的前提下顯著提升了基網表徵能力。論文已被ICCV 2021接收。

 

卷積運算善於提取局部特徵,卻不具備提取全局表徵的能力。


爲了感受圖像全局信息,CNN必須依靠堆疊卷積層,採用池化操作來擴大感受野。


Visual Transformer的提出則打破了CNN在視覺表徵方面的壟斷。


得益於自注意力機制,Visual Transformer (ViT、Deit)具備了全局、動態感受野的能力,在圖像識別任務上取得了更好的結果。


但是受限於的計算複雜度,Transformer需要減小輸入分辨率、增大下采樣步長,這造成切分patch階段損失圖像細節信息。


因此,中國科學院大學聯合鵬城實驗室和華爲提出了Conformer基網模型,將Transformer與CNN進行了融合。


Conformer模型可以在不顯著增加計算量的前提下顯著提升了基網表徵能力。目前,論文已被ICCV 2021接收。


論文地址:https://arxiv.org/abs/2105.03889

項目地址:https://github.com/pengzhiliang/Conformer


此外,Conformer中含有並行的CNN分支和Transformer分支,通過特徵耦合模塊融合局部與全局特徵,目的在於不損失圖像細節的同時捕捉圖像全局信息


特徵圖可視化

 

對一張背景相對複雜的圖片的特徵進行可視化,以此來說明Conformer捕捉局部和全局信息的能力:


  1. 淺層Transformer(DeiT)特徵圖(c列)相比於ResNet(a列)丟失很多細節信息,而Conformer的Transformer分支特徵圖(d列)更好保留了局部特徵;


  2. 從深層的特徵圖來看,DeiT特徵圖(g列)相比於ResNet(e列)會保留全局的特徵信息,但是噪聲會更大一點;


  3. 得益於Transformer分支提供的全局特徵,Conformer的CNN分支特徵圖(f列)會保留更加完整的特徵(相比於e列);


  4. Transformer分支特徵圖(h列)相比於DeiT(g列)則是保留了更多細節信息,且抑制了噪聲。

 

網絡結構


Conformer是一個 並行雙體網結構 ,其中CNN分支採用了 ResNet結構 ,Transformer分支則是採用了 ViT結構
 
網絡結構圖
 
(c)展示了Conformer的縮略圖:一個標準的ResNet stem結構,兩條並行分支,兩個分類器。

(b)展示了每個block中Trans和Conv的連接關係:以2個bottleneck爲例,經過第一個bottleneck 3x3卷積後的局部特徵經過特徵耦合模塊(FCU)傳給Transformer block。

Transformer block將此局部特徵與前一個Trans block的全局特徵相加通過當前的trans block,運算結束後再將結果通過FCU模塊反傳給Conv block。

Conv block的最後一個bottleneck將其與經過1x1卷積後的局部特徵相加,一起輸入3x3卷積。

之所以將Transformer block夾在兩個3x3卷積之間的 原因有兩個

  1. bottleneck中3x3卷積的channel比較少,使得FCU的fc層參數不會很大;


  2. 3x3卷積具有很強的位置先驗信息,保證去掉位置編碼後的性能。


實驗結果


Conformer網絡在ImageNet上做了分類實驗,並做爲預訓練模型在MSCOCO上做了目標檢測和實例分割實驗。
 
分類準確率對比
 
參數量爲37.7M,計算量爲10.6GFlops的Conformer-S超過了參數量爲86.6M,計算量爲17.6GFlops的DeiT-B 約1.6%的準確率。

當Conformer-S增大參數量到83.3M, 準確率 則是達到 84.1%
 
不同基網在分類速度和準確率上的對比
 
目標檢測和實例分割結果的對比

運行幀率爲:
 
目標檢測和實例分割幀率對比
 
在使用FPN+Faster Mask R-CNN框架時,Conformer-S/32在幀率/參數/計算量可比的情況下, 目標檢測精度超過Faster RCNN 3.7% 實例分割超過Mask R-CNN 3.6%
 

分析總結


Conformer是第一個並行的CNN和Transformer混合網絡,通過提出的特徵耦合模塊FCU在每個階段的局部特徵和全局特徵都會進行交互,使得Conformer兼具兩者的優勢。

在分類上,能夠以更小的參數和計算量取得更高的準確率,在目標和實例分割上也能一致地取得大幅度的提升。

目前Conformer只是在ImageNet1K數據集合上訓練,其結合更大預訓練數據(如ImageNet21K)集合以後將成爲一種很有潛力的基網結構。
 

作者介紹


彭智亮、黃瑋,中國科學院大學在讀碩士生

顧善植,鵬城實驗室工程師

王耀威,鵬城實驗室研究員

謝凌曦,華爲公司研究員

焦建彬、葉齊祥,中國科學院大學教授



參考資料:

https://arxiv.org/abs/2105.03889


努力分享優質的計算機視覺相關內容,歡迎關注:
     
        
        
        
個人微信(如果沒有備註不拉羣!
請註明: 地區+學校/企業+研究方向+暱稱



下載1:何愷明頂會分享


AI算法與圖像處理」公衆號後臺回覆:何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經典工作的總結分析


下載2:終身受益的編程指南:Google編程風格指南


AI算法與圖像處理」公衆號後臺回覆:c++,即可下載。歷經十年考驗,最權威的編程規範!



   
      
      
      
下載3 CVPR2021

AI算法與圖像處公衆號後臺回覆: CVPR 即可下載1467篇CVPR 2020論文 和 CVPR 2021 最新論文


本文分享自微信公衆號 - AI算法與圖像處理(AI_study)。
如有侵權,請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章