【CVPR 2019】Dual Attention Network for Scene Segmentation

原文鏈接:https://arxiv.org/pdf/1809.02983.pdf

Github:https://github.com/junfu1115/DANet

Attention機制在NLP上取得進展後於近年被引入CV中也發揮着重要的作用。這篇是採用Self-Attention機制的用於場景分割的文章,通過引入自注意力機制(self-attention mechanism) 在特徵的空間維度和通道維度分別抓取特徵之間的全局依賴關係,增強特徵的表達能力,並在一些數據集上顯著提升了性能。

關於Self-Attention的解釋,從網上找了很多self-attention的文章,發現大多是NLP的,CV的文章寥寥無幾。下面是找到的一些self-attention in cv的文章:

Abstract

本文中我們通過捕獲基於自注意機制的豐富上下文相關性來解決場景分割任務。與以往多尺度特徵融合捕獲的上下文不同的是,我們提出了一種雙重注意力機制網絡(DANet)以自適應地將局部特徵與其全局依賴集成起來。具體來說就是在擴展的FCN頂部增加了兩個注意力模塊,分別對空間維度和通道維度上的語義相互依賴進行建模。Position attention module通過對所有位置上的特徵加權加權求和選擇性的集成特徵。相似的特徵能夠被互相關聯起來,而與距離無關。同時,channel attention module通過在所有通道映射之間集成相關聯的特徵來選擇性地強調相互依賴的通道映射。我們對兩個模塊的輸出求和以提升特徵的表達能力,從而獲得更準確的分割結果。我們在Cityscapes、PASCAL Context和COCO三大數據集上取得了先進的分割效果。特別是在不使用粗Cityscapes數據的情況下,在測試集上獲得81.5%的平均IoU。

Introduction

我們提出了DANet用於場景分割,它引入自注意力機制來捕獲依賴於空間維度和通道維度的特徵。特別的,我們在擴展FCN上追加了兩個平行的注意力模塊,一個稱爲position attention module,另一個稱爲channel attention module。對於position attention module來說,採用self-attention機制能夠捕獲任意兩個位置的特徵圖之間的空間依賴關係。對於channel attention module來說,我們採用類似於self-attention的機制捕獲任意兩個通道映射之間的通道依賴關係,並對所有的通道映射的加權和來更新每個通道映射。最後,融合兩個模塊的輸出以進一步增強特徵表示。

我們的放在在處理複雜和多樣性場景的時候比以往方法更有效和靈活。本文的貢獻主要有一下三點:

  • 採用self-attention 機制提出一種雙注意力機制網絡DANet來增強特徵表示在場景分割中的鑑別能力;
  • 提出一種位置注意力模塊用來學習特徵之間的空間依賴關係和通道注意力模塊用來學習通道之間的依賴關係,通過局部特徵豐富的上下文建模顯著提升了分割效果;
  • 在三大數據集上達到了先進效果。

 

Dual Attention Network

在本節中介紹了網絡的總體框架,然後介紹了在空間維度和通道維度上分別捕獲遠程上下文信息的注意模塊。最後,我們將描述如何將它們聚合在一起以進一步細化。

Overview

由於卷積操作使用局部感受野進行特徵提取,相同類別的物體可能會有不同的特徵。這些不同導致了類內差異的不一致性並對識別的準確率造成影響。爲了解決這個問題,我們通過注意力機制構造了特徵之間的關係探索了全局上下文信息。

文中使用空洞ResNet作爲主體網絡生成局部特徵,但是取消了最後兩塊的downsampling操作,採用空洞卷積來達到既擴大感受野又保持較高空間分辨率的目的。

下圖是position attention module和channel attention module的具體結構

Position Attention Module

輸入A是C*H*W,經過卷積之後生成B、C、D(C*H*W),然後將B/C調整爲C*N(N=H*W),將B轉置(B=N*C)然後與C做matrix multiplication,然後應用softmax計算空間注意力映射S(N*N),matrix multiplication公式如下:

將D也調整爲C*N,與S的轉置N*N做matrix multiplication,並將result調整爲C*H*W,最後與A做element-wise sum操作,得到輸出E(C*H*W),element-wise sum公式如下:

Channel Attention Module

與position attention module類似,不同的是通道注意映射X是C*C大小的。

在兩個注意力模塊輸出之後採用element-wise sum進行融合,然後卷積得到最終預測圖。

Result

右下圖所示可能看到DANet在Cityscapes數據集上比以往的方法有明顯的優勢

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章