【論文筆記】:Object detection with location-aware deformable convolution and backward attention filtering

&Title

在這裏插入圖片描述

&Summary

本文提出了location-aware deformable convolution以及backward attention filtering模塊以提高自動駕駛中多類別多尺度目標檢測的性能。

  • 其中location-aware deformable convolution能夠自適應提取不均勻分佈的上下文特徵,與標準卷積特徵結合以搭建爲複雜場景中檢測目標的健壯的、更具表徵力的特徵。
  • Backward attention filtering模型利用深層卷積層中的高級語義特徵以增強有信息的高分辨率特徵同時抑制分散特徵,提高了性能同時減少了需要的RoIs。

通過在前向-後向網絡中結合兩個方法,在KITTI以及PASCAL VOC數據集中速度和性能均達到頂尖水準。

contribution:

  • 提出location-aware可變形卷積來提取沒有固定幾何分佈的上下文特徵,提取的特徵被用於增強標準卷積特徵,從而提高檢測性能;
  • 提出backward attention filtering模型使用深層特徵過濾淺層特徵,強調informative特徵同時抑制分散特徵,使得RPN能夠更容易生成合理的RoIs,因此減少了需要的RoI的數量從而提升模型速度;
  • 將兩個方法結合到forward-backward網絡中,在KITTI以及PASCAL VOC數據集中性能和速度均達到頂尖水準。

&Research Objective

本文主要關注兩個方面:上下文信息以及空間信息的精煉。分別使用位置感知的可變形卷積以及注意力機制,均是增強特徵方面的操作

&Problem Statement

  • 上下文信息
  • 高分辨率

上下文信息以及高分辨率特徵在多尺度目標檢測中有着重要的作用,但是上下文信息分佈不均勻,高分辨率特徵圖中也包含distractive低級特徵。

先前的研究表明,在複雜場景的多尺度目標檢測中,上下文信息以及高分辨率特徵至關重要。最常用的提取上下文特徵的方法是通過卷積層增大感受野,從而能夠看到較大的區域;然而,上下文信息的分佈並不均勻,同時也不是固定的。爲了捕獲上下文信息,不僅需要較大的感受野,還需要對輸入的自適應的幾何結構。標準卷積固定輸入採樣的網格,不能靈活處理上下文分佈的多樣性。可變形卷積引入位置偏移能夠自適應地提取上下文特徵。
在街景中CNN淺層的高分辨率特徵往往是模糊且受干擾的,爲了使檢測器集中在目標上,需要強調有信息的特徵,同時抑制噪音。使用卷積高層語義特徵作爲attention map以過濾高分辨率特徵圖是一個好的解決方案。

&Method(s)

在這裏插入圖片描述
從backbone中提取出c1-c6,從c3開始使用location-aware deformable convolution以增強上下文信息,之後使用橫向連接以及將上層特徵作爲注意力整合特徵,顯示信息較爲豐富的區域,同時抑制噪聲。之後使用skip pooling來整合特徵進行預測。

Location-aware deformable convolution
在這裏插入圖片描述
一般的可變形卷積,只有一個基於標準卷積相同感受野的卷積層來預測所有的offset。可是使用相同感受野以及卷積層對每個輸入樣本進行offset預測可能無法獲得最優的結果;此外,感受野太小在offset預測時不能查看周圍的特徵,也使其不能捕獲有用的上下文信息。因此提出location-aware deformable convolution:
在這裏插入圖片描述
其中I爲輸入特徵,O爲輸出特徵,D爲膨脹率,pn爲相對於中心的位置變化,如(-1, -1);

如上圖所示,首先使用1×1的卷積來壓縮通道至64,減少通道大小在維持計算開銷上是必要的;然後膨脹卷積來擴大感受野,在每個卷積的位置上使用不同的卷積核以預測每個位置的偏移;之後由於預測的偏移通常是小數,使用插值以獲得對應的特徵值,最後計算加權和得到最終輸出。
在這裏插入圖片描述
Location-aware deformable convolution的目的是爲了獲得更豐富的上下文信息,得到的結果需要與標準卷積的結果一起處理,將兩者concatenate起來,然後使用1×1卷積壓縮到原來的通道數組成最終的輸出特徵。

這裏沒有進行消融實驗,看不出來這個方法對整體效果的提升有多大,同時我想要了解只使用location-aware deformable convolution,不加上standard convolution的結果會有什麼效果。

Backward attention filtering
在這裏插入圖片描述
這裏的注意力機制的使用很常規,直接將上層語義信息使用3×3卷積後進行sigmoid,作爲注意力,然後上採樣到對應大小與當前層特徵相乘:
在這裏插入圖片描述
Skip pooling
在這裏插入圖片描述
Skip pooling可以參考ION: Inside-Outside Net: Detecting Objects in Context with Skip pooling and recurrent neural networks一文中提出的skip pooling方法的使用。將池化擴展到多層中,需要考慮到維度以及幅度的問題:在ImageNet上的預訓練表明,保存現有層的shape相當重要,因此最終的結果也應該爲512×7×7;同時,爲了匹配原始的shape,必須匹配原始的激活幅度。

首先將多層特徵中的每一層使用RoI pool到512×7×7的大小,然後按通道進行拼接,使用1×1卷積壓縮通道;爲適應原始幅度,使用L2正則化,同時將rescale到需要的scale。

&Evaluation

  • 對比+消融:使用相同backbone與faster R-CNN間的效果對比,以及模塊間的消融實驗結果。使用兩個backbone,本文的方法效果對比Faster R-CNN均有較大的提高,最高分別提升2.9與3.4個點。每個模塊的使用也都有相應的提升。
    其中: ( a )爲僅使用location-aware deformable convolution, ( b )僅使用backward
    attention filtering, ( c )同時使用兩個模塊
    在這裏插入圖片描述
  • 對比+消融:Location-aware deformable convolution模塊與一般的convolution以及deformable convolution間的對比,同時對比了不同膨脹率的結果。可見,最優的結果是使用膨脹率爲2的膨脹卷積,使用標準卷積進行offset預測。
    在這裏插入圖片描述
  • 對比實驗:與其他使用attention機制的方法的對比。可見,本文提出的backward attention filtering的效果最佳。
    在這裏插入圖片描述
  • 對比實驗:本文結果與其他方法的對比。可見,本文提出的雖不至於在效果上達到最優,但是均衡了速度與性能。
    在這裏插入圖片描述
    在這裏插入圖片描述

&Thinks

  • 注意力 + 殘差的形式可以拿來用一用,效果應該不錯。
  • 位置感知的可變形卷積和可變形卷積的區別,其實也不大好像??差別在於前者感受野不相同,後者感受野相同。硬件允許的話,可以研究研究。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章