ScarfNet: Multi-scale Features with Deeply Fused and Redistributed Semantics

1、已經存在的特徵金字塔方法

爲了檢測到變化尺寸的目標,基於特徵金字塔的檢測器,在不同特徵層之間,基於在k特徵圖上的決策,例如下圖(a)所示,基線檢測器使用在特徵層l上的特徵圖X_l

           

                                                             X_l = B_l(X_{l-1})\\ \ Detection Oup = D_l(X_l)

其中l = n-k+1,...,n。其中X_{1:n-k}(=[X_1,X_2,...,X_{n-k}])是骨幹網絡產生的特徵圖,X_{n-k+1:n}是從後來的卷積層由底向上得到。B_l(\cdot)代表了第l個卷積層執行的操作。D_l(\cdot)代表檢測子網絡,通常採用一個單一的3 \times 3的卷積層來產生分類和框迴歸的輸出。由於從金字塔層輸入的深度不同,較淺的底層特徵缺乏語義信息。

爲了減少不同金字塔層之間的語義差距,有一些工作提出了使用橫向連接的自頂向下結構,如圖(c)所示。這種結構使用增加分辨率的方式使來自頂層的語義信息傳播到底層。通過橫向連接保持較高的空間分辨率。第l層的特徵圖X'_l產生的方式爲

                                                               

其中l = n-k+1,...,nL_l(\cdot)是第l層的橫向連接,T_l(\cdot)是第l的自頂向下的連接。操作符\oplus代表兩個特徵圖的組合,例如通道連接和相加。不同的方法僅僅採用了不同的T_l(\cdot)L_l(\cdot)。對特徵金字塔這些方法比較抽象,他們依然有一些限制。因爲自頂向下的連接以沒有方向的方式傳播語義,這些語義在各層上是不均勻分佈的。結果是金字塔特徵層之間的語義分隔依然存在。接下來,在所有特徵層上,特徵的單向連接處理對產生增加語義信息的能力有限制。爲了解決這個問題我們開發了一個使用biLSTM在所有特徵層之間以單向橫向連接產生深度融合的語義。接下來的章節將展示我們提出方法的細節。

3.2、ScarfNet:整個結構

ScarfNet用兩步來解決語義信息的不符:(1)、使用biLSTM來組合打散的語義信息。(2)、使用逐通道注意模塊將融合的特徵重新分佈到每個特徵層。整個結構如下圖所示:

                                    

將第k個金字塔特徵X_{n-k+1:n}作爲輸入,ScarfNet產生第l個特徵圖X'_l爲:

                                      

其中l = n-k+1,...,n,如式(6)所示ScarfNet由兩部分組成:語義重組網絡(ScNet)和注意重分佈網絡(ArNet)。首先,ScNet通過biLSTM來融合金字塔特徵X_{n-k+1:n},並且用融合的語義產生輸出特徵。第二,ArNet收集從biLSTM的輸出特徵,並且用逐通道注意力來產生高質量的語義多尺度特徵,連接到原始的特徵金子塔上。最終,結果特徵圖用檢測子網絡D_l(\cdot)單獨處理來產生最終的檢測結果。

3、語義組合網絡(ScNet)

通過ScNet產生的特徵圖X_{n-k+1:n}^{f}爲:

                                     

X^f_l是第l層的輸出特徵圖,細節如下圖所示,描述了ScNet的細節。ScNet使用biLSTM在不同的金字塔之間均勻的融合打散的特徵。biLSTM通過門函數,在多尺度層上選擇融合語義信息。ScNet有匹配模塊和biLSTM組成。匹配模塊首先對金字塔特徵X_{n-k+1:n}的尺寸進行變換,使他們的尺寸相同。然後使用1 \times 1的卷積層來調整通道維度。結果,匹配模塊產生通道數和尺寸都相同的特徵圖。尺寸變換操作通過雙線性插值來完成。biLSTM和參考文獻[23]相同。基於全局池化的結果,對輸入連接和門參數的計算使用卷積層,來顯著的節省計算。

                                     

特別地,biLSTM的操作可以簡化爲:

                                   

其中\bigcirc代表哈達瑪積,biLSTM的狀態在前向和後向都更新。上式爲前向更新,後向更新的表達式類似。

4、注意力重分佈網絡(ArNet)

ArNet產生高層的語義特徵圖,連接到原始的金字塔特徵圖X_l上,表達式爲:

                              

操作符\oplus代表主通道連接。ArNet的具體結構如圖4所示。ArNet連接biLSTM的輸出X_{n-k+1:n}^{f},對他們應用逐通道注意力機制。注意力機制的權重通過構建1 \times 1的向量獲得,具體方式爲使用全局平均池化,並且將將它傳遞到兩個全連接層,最後再接一個sigmoid函數。注意,這些逐通道注意力模塊允許選擇將語義傳播到金字塔的每層。一旦注意力的權重使用了,匹配模塊將特徵圖的結果進行下采樣,並且應用1 \times 1的卷積來匹配通道維數,利用這些原始的金字塔特徵。最終,輸出的匹配模塊連接到原始的特徵圖X_l上,來產生高的語義特徵X'_l

                             

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章