Deformable Convolutional Networks 論文閱讀

原創

2020-05-12 17:12

摘要

卷積神經網絡由於固定的幾何結構一直受限於對幾何形變的建模，這篇工作引入了兩個新模塊——deformable convolution和deformable RoI pooling。deformable convolution 和deformable RoI pooling都是基於一個平行網絡分支學習offset（偏移），使卷積核在input map的採樣點發生偏移，集中於我們感興趣的區域或目標。同時這個組件可以輕鬆地替代CNN中的普通卷積，並且很容易通過反向傳播進行end-to-end的訓練。

1. 簡介

在計算機視覺識別領域，一項重要挑戰就是怎樣對幾何形變和模型幾何變換（目標尺度、姿勢、視點和形變）進行建模。一般來講，有兩種方法：第一種是就是通過仿射變換等手段做數據增廣，擴充數據集，使得訓練集中儘可能包含具有更多形變的樣本；第二種就是使用形變不變性的特徵或者算法（如SIFT和滑窗算法）。但上面的方法有兩個缺點：

幾何形變被假設是固定和已知的，這是一種先驗信息，用這些有限的、已知的形變來進行數據擴增或設計算法，可想而知，對於新的、未知的形變則無法處理。
手工設計的特徵或算法無法應對過度複雜的形變，即便該形變是已知的。

而作者引入的這兩個模塊都是輕量級的，他們添加了很少的參數和計算量來學習額外的offset，然後用這兩個模塊在模型的深層做替換，並且很容易通過反向傳播進行end-to-end的訓練，效果不錯。

2. 可變形卷積網絡

2.1 可變形卷積

2.1.1 二維卷積包括兩個步驟：

在輸入的特徵圖x上使用規則網格 $R$ 進行採樣
對由w加權後的採樣值求和
其中，網格 $R$ 定義了感受野的大小和擴張率。例如

定義了一個 $3 \times 3$ 的卷積核且擴張率爲1.
對於輸出特徵圖y上的每個位置 $p_0$ ，

$p_n$ 枚舉了 $R$ 中的每個位置。

2.1.2 可變形卷積:

在擴張卷積中，規則網格 $R$ 增加了偏移量
其中 $N=|R|$ 。這樣呢，

現在，採樣是在加了偏移的不規則位置 $p_n+ \Delta p_n$ 。由於偏移 $\Delta p_n$ 通常是小數，因此上述公式採用雙線性插值實現：

式中， $p$ 表示任意(小數)位置( $p = p_0 + p_n + \Delta p_n$ )， $q$ 是 $p$ 最近鄰的四個點，利用雙線性插值計算時， $x(p)$ 的值是由和 $p$ 最近鄰的四個點計算得到的, $G(q, p)$ 是 $q$ 點對應的加權值，該點離 $p$ 越近權值越大。
如圖2所示，通過在相同的輸入特徵圖上應用卷積層來獲得偏移量。卷積核具有與當前卷積層相同的空間分辨率和擴張率，輸出偏移量具有與輸入特徵圖相同的空間分辨率。通道維數 $2N$ 對應於 $N$ 個二維偏移量(也就是說卷積核上的每個值都對應x，y兩個偏移量)。在訓練過程中，同時學習生成輸出特徵的卷積核和偏移量。爲了學習偏移量，梯度通過Eq.(3)和Eq.(4)反向傳播。

3. 總結

這次看這篇文章主要是想了解一下可變形卷積，因此沒有放上可變形池化的理解，但是看了一下論文中的圖，原理差不多。另外說說這個可變形卷積，作者通過給特徵圖上的每個位置預測相當於卷積核權重數兩倍（x, y）的偏移量，這樣每次卷積加權時，與卷積權重（假設33）相乘的9個特徵圖上的值不再是原來的網格33，而是加上偏移量（通過卷積預測）的其他9個值。在我看來，卷積核中央對應的特徵圖上的值不應該加上偏移量，拿高斯濾波舉例，你把中央的數值本身都放棄了，卷積輸出結果與當前中心值的關係就不大了。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Deformable Convolutional Networks 論文閱讀

摘要

1. 簡介

2. 可變形卷積網絡

2.1 可變形卷積

2.1.1 二維卷積包括兩個步驟：

2.1.2 可變形卷積:

3. 總結

Python實現大麥網搶票的四大關鍵技術點解析

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

關於接口協議，你必須要知道這些！

python 圖像和bounding box隨機旋轉

PolyTransform: Deep Polygon Transformer for Instance Segmentation論文閱讀

遙感原理與應用總結——第八章：遙感圖像自動識別分類

遙感原理與應用總結——第六章：遙感圖像輻射處理

遙感原理與應用總結——第七章：遙感圖像判讀

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結