Deformable Convolutional Networks 論文閱讀

摘要

卷積神經網絡由於固定的幾何結構一直受限於對幾何形變的建模,這篇工作引入了兩個新模塊——deformable convolution和deformable RoI pooling。deformable convolution 和deformable RoI pooling都是基於一個平行網絡分支學習offset(偏移),使卷積核在input map的採樣點發生偏移,集中於我們感興趣的區域或目標。同時這個組件可以輕鬆地替代CNN中的普通卷積,並且很容易通過反向傳播進行end-to-end的訓練。

1. 簡介

在計算機視覺識別領域,一項重要挑戰就是怎樣對幾何形變和模型幾何變換(目標尺度、姿勢、視點和形變)進行建模。一般來講,有兩種方法:第一種是就是通過仿射變換等手段做數據增廣,擴充數據集,使得訓練集中儘可能包含具有更多形變的樣本;第二種就是使用形變不變性的特徵或者算法(如SIFT和滑窗算法)。但上面的方法有兩個缺點:

  • 幾何形變被假設是固定和已知的,這是一種先驗信息,用這些有限的、已知的形變來進行數據擴增或設計算法,可想而知,對於新的、未知的形變則無法處理。
  • 手工設計的特徵或算法無法應對過度複雜的形變,即便該形變是已知的。

而作者引入的這兩個模塊都是輕量級的,他們添加了很少的參數和計算量來學習額外的offset,然後用這兩個模塊在模型的深層做替換,並且很容易通過反向傳播進行end-to-end的訓練,效果不錯。

2. 可變形卷積網絡

在這裏插入圖片描述

2.1 可變形卷積

2.1.1 二維卷積包括兩個步驟

  • 在輸入的特徵圖x上使用規則網格RR進行採樣
  • 對由w加權後的採樣值求和
    其中,網格RR定義了感受野的大小和擴張率。例如
    在這裏插入圖片描述
    定義了一個3×33 \times 3的卷積核且擴張率爲1.
    對於輸出特徵圖y上的每個位置p0p_0
    在這裏插入圖片描述
    pnp_n枚舉了RR中的每個位置。

2.1.2 可變形卷積:

  • 在擴張卷積中,規則網格RR增加了偏移量在這裏插入圖片描述
    其中N=RN=|R|。這樣呢,

在這裏插入圖片描述

  • 現在,採樣是在加了偏移的不規則位置pn+Δpnp_n+ \Delta p_n。由於偏移Δpn\Delta p_n通常是小數,因此上述公式採用雙線性插值實現:
    在這裏插入圖片描述
    式中,pp表示任意(小數)位置(p=p0+pn+Δpnp = p_0 + p_n + \Delta p_n), qqpp最近鄰的四個點,利用雙線性插值計算時,x(p)x(p)的值是由和pp最近鄰的四個點計算得到的,G(q,p)G(q, p)qq點對應的加權值,該點離pp越近權值越大。
  • 如圖2所示,通過在相同的輸入特徵圖上應用卷積層來獲得偏移量。卷積核具有與當前卷積層相同的空間分辨率和擴張率,輸出偏移量具有與輸入特徵圖相同的空間分辨率。通道維數2N2N對應於NN個二維偏移量(也就是說卷積核上的每個值都對應x,y兩個偏移量)。在訓練過程中,同時學習生成輸出特徵的卷積核和偏移量。爲了學習偏移量,梯度通過Eq.(3)和Eq.(4)反向傳播。
    在這裏插入圖片描述

3. 總結

這次看這篇文章主要是想了解一下可變形卷積,因此沒有放上可變形池化的理解,但是看了一下論文中的圖,原理差不多。另外說說這個可變形卷積,作者通過給特徵圖上的每個位置預測相當於卷積核權重數兩倍(x, y)的偏移量,這樣每次卷積加權時,與卷積權重(假設33)相乘的9個特徵圖上的值不再是原來的網格33,而是加上偏移量(通過卷積預測)的其他9個值。在我看來,卷積核中央對應的特徵圖上的值不應該加上偏移量,拿高斯濾波舉例,你把中央的數值本身都放棄了,卷積輸出結果與當前中心值的關係就不大了。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章