AC-FPN解讀 --- Attention-guided Context Feature Pyramid Network for Object Detection

論文:https://arxiv.org/pdf/2005.11475.pdf
代碼:https://github.com/Caojunxu/AC-FPN

摘要

對於目標檢測,如何解決高分辨率輸入上的特徵圖分辨率與感受野之間的矛盾要求仍然是一個懸而未決的問題。在本文中,爲了解決這個問題,我們建立了一種新穎的體系結構,稱爲注意力導向的上下文特徵金字塔網絡(AC-FPN),該體系結構通過集成注意力導向的多路徑功能來利用來自各個大型感受野的判別信息。該模型包含兩個模塊。第一個是上下文提取模塊(CEM),它從多個接受域中探索大量上下文信息。由於冗餘的上下文關係可能會誤導定位和識別,因此我們還設計了第二個模塊,稱爲注意力引導模塊(AM),該模塊可以通過使用注意力機制來自適應捕獲對象的顯着依賴性。 AM由兩個子模塊組成,即上下文注意模塊(CxAM)和內容注意模塊(CnAM),它們專注於捕獲區分語義和精確定位。最重要的是,我們的AC-FPN可以輕鬆插入現有的基於FPN的模型中。在對象檢測和實例分割方面的大量實驗表明,帶有我們提出的CEM和AM的現有模型大大超過了沒有它們的同類模型,並且我們的模型成功獲得了最新的結果。

簡介

如今的目標檢測器(Faster R-CNN,RetinaNe)爲了獲取更好的性能,都採用高分辨率圖像(比如800 * 800 )作爲輸入,因爲高分辨率可以獲得更詳細的信息。但是,高分辨率的輸入需要更大的感受野才能獲得更好的語義特徵。
直觀來說,可以通過增加捲積層和下采樣層來堆積網絡深度,獲得更好的語義特徵,但是,這樣會增加網絡參數,增加內存成本,優化變得困難,也可能造成過擬合。另一方面,下采樣層數量的增加導致特徵圖尺寸的減小

所以,如果保證高分辨率輸入的同時還能獲得大的感受野是很困難也很關鍵的。(又想感高分辨率,又想大感受野,,,,)

FPN通過引入自上而下的路徑,將低分辨率大感受野特徵(語義信息)與高分辨率小感受野特徵(細節信息)相結合,以檢測不同尺度的物體,減輕了上述之間的矛盾要求。但是,利用FPN依然沒有獲得很大的感受野(比輸出圖像尺寸小得多)
另一方面,FPN的方法無法充分利用不同大小的感受野。 具體而言,自下而上的路徑僅堆疊各層以擴大感受野,而不會促進信息傳播,並且對應於不同接收域的特徵圖只是通過在自上而下的路徑中逐元素添加而合併。
因此,FPN由不同感受野捕獲的語義信息不能很好地彼此通信,從而導致性能受限

綜上,當前基於FPN的方法存在兩個主要問題:
1)高分辨率輸入上的特徵圖分辨率與接收場之間的矛盾要求
2)多尺寸接收場之間缺乏有效的溝通。

爲了解決第一個問題,設計了一個名爲CEM的模塊,以利用來自多個大型上下文的特徵;
在這裏插入圖片描述
圖1.(a)檢測到的物體。 (b)相同模型在不同尺寸圖像上的接受場。 (c)從各個接受領域獲得的上下文信息。 (d)確定的尺度關係。 虛線表示對圖像的依賴性,線寬表示相關度

爲了解決第二個問題,在CEM中引入了具有不同接收場的層之間的密集連接。

CEM的功能包含豐富的上下文信息並在很大程度上有助於檢測不同比例的對象,但它有些雜亂,可能會使定位和識別任務感到困惑。 因此,如圖1(d)所示,爲了減少對冗餘上下文的誤導並進一步增強特徵的判別能力,設計了另一個名爲“注意力引導模塊”(AM)的模塊,該模塊引入了一種自我注意機制來捕獲 有效的上下文相關性。 具體來說,它由兩部分組成:
1)上下文注意模塊(CxAM),旨在捕獲特徵圖的任意兩個位置之間的語義關係;
2)內容注意模塊(CnAM),致力於發現空間依賴性。

AC-FPN即是有CEM和AM兩個模塊組成,即AC-FPN = CEM + AM(CxAM + CnAM),可以方便的插入到現有的基於FPN的方法中。

AC-FPN

AC-FPN和普通FPN的架構如下圖所示:
在這裏插入圖片描述
AC-FPN模型具有兩個新穎的組件:
1)上下文提取模塊(CEM),利用來自各種大小的感受野的豐富上下文信息;
2)注意力導向模塊(AM),可增強顯着上下文依存關係

A. CEM模塊

在這裏插入圖片描述
F5特徵作爲CEM的輸入,然後分兩個路徑:
1)使用密集連接的方式對F5特徵採用3,6,12,18,24的空洞參數的空洞卷積進行不同感受野的特徵圖提取,並對每一個連接引入可變形卷積,確保CEM可以從給定數據中學習變換不變特徵。
2)爲了保持初始輸入的粗粒度信息,對F5特徵進行upsampling。
最後兩個路徑的輸出concate,並將它們饋送到1×1卷積層,以融合粗粒度和細粒度特徵。
CEM模塊的網絡配置如下:
在這裏插入圖片描述

B. AM模塊

由兩部分組成:1)上下文注意模塊(CxAM)和2)內容注意模塊(CnAM)。

1) Context Attention Modules

在這裏插入圖片描述
F是CEM的輸出特徵,由CEM產生幷包含多尺度感受野信息,放入CxAM模塊。 基於這些信息,CxAM自適應地關注相關的子區域之間的關係。 因此,輸出CxAM的功能將具有清晰的語義幷包含周圍對象內的上下文相關性。

2) Content Attention Module

在這裏插入圖片描述
由於CEM使用了可變形卷積,導致給定圖像的幾何特性已被徹底破壞,從而導致位置偏移。爲此,我們設計了一個新的注意力模塊,稱爲內容注意力模塊(CnAM),以維護每個對象的精確位置信息。

CnAM與CxAM的區別就是CnAM利用了F5的feature map作爲一個輸入彌補被破壞的定位信息。

實驗結果

在這裏插入圖片描述
感想:FPN已經做爛了還有這方面的研究。。。不過這個AC-FPN爲了漲一兩個點添加了CEM和AM模塊,增大了計算量,而且實驗還有two-stage檢測網絡的對比實驗,並沒有一階段的對比實驗,會不會one-stage檢測網絡加入AC-FPN後速度優勢就不明顯了?感覺不太值呢?。。

參考
https://blog.csdn.net/weixin_42096202/article/details/106500293

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章