Transformer 再添一員,比 Swin 更強的 DiNAT

出品人:Towhee 技術團隊 張晨、顧夢佳

在視覺領域,除了常規 Transformer 的持續發展,分層的 Transformer 結構也因爲其性能和易集成性獲得了極大的關注。DiNA 注意力機制是 Neighborhood Attention (NA)的拓展,更加自然、靈活、高效。它可以捕獲更多的全局上下文並以指數方式擴展感受域,而無需額外成本。DiNA Transformer 是基於兩種注意力的新型分層視覺模型。相比 NAT、Swin 和 ConvNeXt 等強基線模型,DiNAT 變體帶來了顯著的改進。使用了 DiNA 的大型模型速度更快,在公開數據集 COCO 的目標檢測中領先 Swin 模型 1.5% box AP,在實例分割中超過 1.3% mask AP。

An illustration of DiNAT’s architecture.

分層結構的 Transformer 模型通常採用局部注意機制,例如滑動窗口 NA 或 Swin Transformer 的 Shifted Window Self Attention。雖然該策略有效地降低了自注意力的二次複雜度,但局部注意力削弱了自注意力的兩個最理想的特性:遠程相互依賴建模和全局感受野。因此 DiNAT 首先將輸入下采樣到原始空間分辨率的四分之一,並通過 4 級 DiNA Transformer 編碼器發送它們。特徵圖被下采樣到其空間大小的一半,並在級別之間的通道中加倍。DiNAT 層與大多數 Transformer 相似,模型會每隔一層在局部 NA 和稀疏全局 DiNA 之間切換。

相關資料:

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章