點擊下方“AI算法與圖像處理”,一起進步!
重磅乾貨,第一時間送達
點擊下方“AI算法與圖像處理”,一起進步!
重磅乾貨,第一時間送達
來源: 新智元
【導讀】Transformer和CNN在處理視覺表徵方面都有着各自的優勢以及一些不可避免的問題。因此,國科大、鵬城實驗室和華爲研究人員首次將二者進行了融合並提出全新的Conformer模型,其可以在不顯著增加計算量的前提下顯著提升了基網表徵能力。論文已被ICCV 2021接收。
卷積運算善於提取局部特徵,卻不具備提取全局表徵的能力。
爲了感受圖像全局信息,CNN必須依靠堆疊卷積層,採用池化操作來擴大感受野。
Visual Transformer的提出則打破了CNN在視覺表徵方面的壟斷。
得益於自注意力機制,Visual Transformer (ViT、Deit)具備了全局、動態感受野的能力,在圖像識別任務上取得了更好的結果。
但是受限於的計算複雜度,Transformer需要減小輸入分辨率、增大下采樣步長,這造成切分patch階段損失圖像細節信息。
因此,中國科學院大學聯合鵬城實驗室和華爲提出了Conformer基網模型,將Transformer與CNN進行了融合。
Conformer模型可以在不顯著增加計算量的前提下顯著提升了基網表徵能力。目前,論文已被ICCV 2021接收。
論文地址:https://arxiv.org/abs/2105.03889
項目地址:https://github.com/pengzhiliang/Conformer
此外,Conformer中含有並行的CNN分支和Transformer分支,通過特徵耦合模塊融合局部與全局特徵,目的在於不損失圖像細節的同時捕捉圖像全局信息。
特徵圖可視化
對一張背景相對複雜的圖片的特徵進行可視化,以此來說明Conformer捕捉局部和全局信息的能力:
淺層Transformer(DeiT)特徵圖(c列)相比於ResNet(a列)丟失很多細節信息,而Conformer的Transformer分支特徵圖(d列)更好保留了局部特徵;
從深層的特徵圖來看,DeiT特徵圖(g列)相比於ResNet(e列)會保留全局的特徵信息,但是噪聲會更大一點;
得益於Transformer分支提供的全局特徵,Conformer的CNN分支特徵圖(f列)會保留更加完整的特徵(相比於e列);
Transformer分支特徵圖(h列)相比於DeiT(g列)則是保留了更多細節信息,且抑制了噪聲。
網絡結構
bottleneck中3x3卷積的channel比較少,使得FCU的fc層參數不會很大;
3x3卷積具有很強的位置先驗信息,保證去掉位置編碼後的性能。
實驗結果
分析總結
作者介紹
參考資料:
https://arxiv.org/abs/2105.03889
個人微信(如果沒有備註不拉羣!)
請註明:
地區+學校/企業+研究方向+暱稱
下載1:何愷明頂會分享
在「AI算法與圖像處理」公衆號後臺回覆:何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經典工作的總結分析
下載2:終身受益的編程指南:Google編程風格指南
在「AI算法與圖像處理」公衆號後臺回覆:c++,即可下載。歷經十年考驗,最權威的編程規範!
下載3 CVPR2021
在「AI算法與圖像處理」公衆號後臺回覆:
CVPR
,即可下載1467篇CVPR 2020論文 和 CVPR 2021 最新論文
本文分享自微信公衆號 - AI算法與圖像處理(AI_study)。
如有侵權,請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。