當尺度感知調製遇上 Transformer,會碰撞出怎樣的火花?

1.文章介紹

近年來,基於Transformer和CNN的視覺基礎模型取得巨大成功。有許多研究進一步地將Transformer結構與CNN架構結合,設計出了更爲高效的hybrid CNN-Transformer Network,但它們的精度仍然不盡如意。本文介紹了一種新的基礎模型SMT(Scale-Aware Modulation Transformer),它以更低的參數量(params)和計算量(flops)取得了大幅性能的提升。不同於其他CNN-Transformer結合的方案,SMT基於卷積計算設計了一個新穎的輕量尺度感知調製單元Scale-Aware Modulation(SAM),它能夠捕捉多尺度特徵的同時擴展感受野,進一步增強卷積調製能力。此外,SMT提出了一種進化混合網絡Evolutionary Hybrid Network(EHN),它能夠有效地模擬網絡從淺層變深時捕捉依賴關係從局部到全局的轉變,從而實現更優異的性能。在ImagNet、COCO以及ADE20k等任務上都驗證了該模型的有效性。值得一提的是,SMT在ImageNet-22k上預訓練後以僅僅80.5M的參數量在ImageNet-1k上達到了88.1%的精度。

2.出發點

  • 對於多層級的網絡架構來說,由於淺層特徵圖分辨率大的原因,自注意力的二次複雜性會帶來嚴重的計算負擔。因此,如何爲淺層stage設計高效的attention計算機制是十分重要的。
    • 回顧以往的大部分Hierarchical(Multi-scale)的模型,以Swin爲代表,以及後續的CvT,PvT,Shunted Transformer等等,它們的主要貢獻點都是設計出了一種更高效的attention計算單元,比如local attention,lightweight convolution attention等等。
  • ViT論文中提出,Transformer模型的注意力捕捉依賴關係爲,淺層捕捉local信息,深層捕捉global信息,而這種特性在多層級網絡架構上也會出現。
    • 作者認爲,模擬並建模這種捕捉依賴過渡是重要且有效的。

3.SMT框架算法

SMT的總體框架如圖1所示。整個網絡包括四個階段,每個階段的下采樣率爲{4, 8, 16, 32}。我們並非和FocalNet一樣構建一個無注意力機制的網絡,而是首先在前兩個階段採用文章提出的尺度感知調製(SAM),然後在倒數第二個階段中依次堆疊一個SAM Block和一個多頭自注意力(MSA) Block,以建模從捕捉局部到全局依賴關係的轉變。對於最後一個階段,我們僅使用MSA塊來有效地捕捉長距離依賴關係。

3.1 Scale-Aware Modulation模塊

  • 多頭混合卷積MHMC(Multi-Head Mixed Convolution)

在MHMC中,我們引入了具有不同卷積核大小的多個卷積層,使其能夠捕捉多個尺度上的空間特徵。當我們將N head設置得較大時,能夠引入大卷積核來擴大感受野,增強其建模長距離依賴關係的能力。如圖2(b)所示,MHMC將輸入通道分爲N個頭,對每個頭應用獨立的深度可分離卷積。我們將卷積核大小初始化爲3x3,並逐頭遞增。這種方法使得我們能夠人爲的通過調整頭的數量來調節感受野的範圍和多粒度信息。

  • 多尺度感知聚合SAA(Scale-Aware Aggregation)

爲了增強MHMC中多個頭之間的信息交互,我們引入了一種新的輕量化聚合模塊,稱爲多尺度感知聚合(SAA),如圖2(c)所示。SAA首先對MHMC生成的不同粒度的特徵進行重組和分組。具體而言,我們從每個頭中選擇一個通道來構建一個組,然後在每個組內進行up-down的特徵融合,從而增強多尺度特徵的多樣性。值得注意的是,Num_group = C / N_head,C爲輸入通道數,這意味着組的數量與MHMC中頭的數量成反比,每個組裏只包含N個特徵通道。隨後,我們使用1x1卷積進行組內-組間模式的跨組信息融合,從而實現輕量且高效的聚合效果。

如圖3所示,我們可視化出SAA前和SAA後的特徵圖,可以觀察到SAA模塊加強了語義相關的低頻信號,並準確地聚焦於目標物體最重要的部分。與聚合之前的卷積映射相比,SAA模塊展示了更好的能力來捕捉和表示視覺識別任務的關鍵特徵。

  • 尺度感知調製器SAM(Scale-Aware Modulation)

如圖2(a)所示,在使用MHMC捕捉多尺度空間特徵並通過SAA進行聚合後,我們獲得一個輸出特徵圖,我們稱之爲調製器Modulator。然後,我們使用標量乘積採用這個調製器來調製value V。

3.2 混合進化網絡Evolutionary Hybrid Network

在本節中,我們提出根據網絡的捕捉範圍依賴關係的變化模式重新分配適當的計算模塊,以實現更好的計算性能。我們提出了兩種混合堆疊策略用於倒數第二個階段,(i) 依次堆疊一個SAM塊和一個MSA塊。(ii) 在stage的前半部分使用SAM塊,在後半部分使用MSA塊。爲了評估這兩種混合堆疊策略的有效性,我們在ImageNet-1K上評估了它們的top-1準確率。可以看到,(i)混合堆疊策略更加有效。

不僅如此,我們還計算了倒數第二個階段中MSA塊的相對感受野。值得注意的是,淺層layer的相對感受野開始階段有一個輕微的下降趨勢。作者認爲這種下降可以歸因於SAM對早期MSA Block的影響,我們將這種現象稱爲計算單元磨合適應期。而隨着網絡的加深,我們可以看到感受野呈平穩上升的趨勢,這表明我們提出的進化混合網絡有效地模擬了從局部到全局依賴捕捉的過渡。

4.實驗

4.1 分類實驗

 

上表給出了不同模型大小在ImageNet-1k上的性能對比,從中可以看到:

  • SMT在tiny、small和base規模上都以更低的參數量和計算量達到了更優的性能;
  • SMT-B在僅僅32.0M和7.7GFlops下就取得了84.3%的精度,甚至比大多數80M和15G以上的模型更好。
  • 當採用ImageNet-22k與大尺度數據預訓練之後,SMT-L精度提升到87.1%和88.1%,優於現有的CNN和Transformer模型。特別地,SMT-L用4x低的參數量和3x低的計算量就超過了InternImage-XL(88.0%)
  • 這些結果表明SMT是一個scalability能力很強的模型,在各種尺度參數下都具有優異的性能。

4.2 目標檢測實驗

 

上述三個表格是在多個檢測框架上的性能對比實驗,可以看到

  • 在多個檢測框架上,包括Mask R-CNN、Cascade R-CNN、RetinaNet、Sparse R-CNN、ATSS和DINO中,SMT都獲得了更優的性能。
  • 對於Mask R-CNN,在1x和3x中,SMT-B分別比Swin-B高2.1mAP和1.3mAP,同時參數量只有Swin-B的一半。
  • 對於DINO檢測框架,SMT-S僅僅用39.9M的參數量就達到了54.0mAP,超越了現有同等規模大小的其他模型。

4.3 分割實驗

上表給出了ADE20K分割任務上的性能對比,從中可以看到當我們使用uperNet框架時,SMT在不同尺度下擁有更低的參數量和計算量,同時精度也優於其他模型。

4.4 消融實驗

5.總結與展望

總的來說,在視覺基礎模型backbone的探索路程中,我們有着對未來的展望:

  • 以視覺Transformer爲例,除了在自監督學習等預訓練中依舊用着ViT這種plain Vision Transformer,大部分視覺基礎模型都以Swin和PvT這種Hierarchical架構爲基礎設計範式。而這種範式需要解決的問題就是如何在淺層stage中設計更高效的注意力機制計算來解決自注意力的二次複雜性帶來的計算負擔。是否有更優秀的計算模塊能夠代替SAM或者是MSA是我們後續需要繼續探索的路。
  • 2023年,更多的視覺Transformer模型和CNN基礎大模型被提出,它們在各大榜單上你追我趕,可以發現CV領域中CNN依舊有着一席之地。如果Transformer不能夠在CV領域完全替代cnn神經網絡,那麼將兩者的優勢結合起來是否是更好的選擇?因此,我們希望SMT可以作爲Hybrid CNN-Transformer方向新的baseline,推動該領域的進步和發展。

● Arxiv地址:
https://arxiv.org/abs/2307.08579
● Github地址:
https://github.com/AFeng-x/SMT
● modelscope地址:
https://modelscope.cn/models/PAI/SMT/summary
● 論文鏈接:
https://arxiv.org/pdf/2307.08579.pdf
● 代碼鏈接:
https://github.com/AFeng-x/SMT

Reference

[1] Scale-Aware Modulation Meet Transformer[https://arxiv.org/abs/2307.08579]

[2] An image is worth 16x16 words transformers for image recognition at scale [https://arxiv.org/pdf/2010.11929.pdf]

[2] Focal Modulation Network [https://arxiv.org/abs/2203.11926]

[3] MixConv: Mixed Depthwise Convolutional Kernels [https://arxiv.org/abs/1907.09595]

[4] Swin Transformer: Hierarchical Vision Transformer using Shifted Windows [https://arxiv.org/abs/2103.14030]

[5] InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions [https://arxiv.org/abs/2211.05778]

論文信息

  • 論文標題:Scale-Aware Modulation Meet Transformer
  • 論文作者:林煒豐、吳梓恆、陳佳禹、黃俊、金連文
  • 論文PDF鏈接:https://arxiv.org/pdf/2307.08579.pdf
點擊立即免費試用雲產品 開啓雲上實踐之旅!

原文鏈接

本文爲阿里雲原創內容,未經允許不得轉載

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章