Spatial Transformer Networks

這篇論文自己也理解的不是很深,把自己的當時記的筆記拿出來和大家分享一下,有什麼錯誤的地方希望大家指正。(第一次寫CSDN博客,跪求各位大佬多多指點)
一、abstract1

CNN的池化操作只有在很深的層次上才具有良好的形變容忍能力,而且能力有限,需要構建很深網絡結構才能達到目的,這意味着網 絡難以訓練,容易過擬合。與池化層(接收字段是固定的和局部的)不同,空間轉換器模塊是一種動態機制,用以替代池化層,可以通過爲每個輸入樣本生成一個適當的轉換參數,從而積極地對圖像進行空間轉化。變換是在在整個feature map(非局部)上執行轉換,可以包括縮放、裁剪、旋轉以及非剛性變形。這使得包括空間轉換器在內的網絡不僅可以選擇最相關的圖像區域(注意),還可以將這些區域轉換爲規範的、預期的姿態,以簡化後面網絡的識別。
在這裏插入圖片描述
問題:空間變換怎麼實現梯度反傳和訓練

二、網絡結構
從U輸出的特徵輸入Localsation net 預測出變換參數θ, 構造從U到V的變換函數(矩陣)簡化問題:只考慮單通道特徵圖輸入,進行單種變換。將特徵圖輸入Localisation network ,經過隱藏層預測空間轉換參數,即每組參數都是基於特定的輸入產生的。然後用預測的參數構建一個採樣網格( 決定輸入圖中哪些點需要被採樣的點集),採樣器利用輸入特徵圖和採樣網格的點採樣出轉換後的圖像。
在這裏插入圖片描述
優點: 通過爲卷積神經網絡提供確切的空間變換,空間變換機制解決了上述問題,它擁有3個屬性。
1.模塊化:只需要進行微小的調整,就可以將空間變換網絡插入到現有體系結構的任何地方。
2.可區分性:可以使用反向傳播算法進行訓練,允許對所插入的模型進行端到端的訓練。
3.動態性:在每個輸入樣本的特徵映射上執行主動空間變換,而池化層則是對所有輸入樣本進行操作。

三、每部分詳細結構

3.1 Localisation Nework
在這裏插入圖片描述

作用,將特徵圖輸入,預測一組變換參數,參數個數依賴於變換類型,比如仿射變換需要六個參數。

3.2 Parameterised Sampling Grid 網格生成器的作用是輸出一個參數化的採樣網格,這是一組點集,即輸入映射經過採樣產生期望的轉換輸出。具體來說,網格生成器首先創建與輸入圖像U(格式爲(H,W))相同大小的歸一化網格,即覆蓋整個輸入特徵映射的一個索引集(xt,yt)映射(上標t代表輸出特徵映射的目標座標)。由於我們對這個網格做了仿射變換,並且想要使用變換,我們繼續在座標矢量上添加一行進行計算。最後,我們將6個參數θ塑造爲一個2*3矩陣,並執行下面的乘法運算,就會得到我們所需要的參數化採樣網格。
在這裏插入圖片描述
把目標圖像的座標放在左邊的原因:這樣可以保證目標圖像上的每個點都能和原圖像對應起來,不會出現座標缺失的情況。
可微分的圖像採樣網絡由於雙線性插值是可微的,因此非常適用於空間變換網絡。通過輸入特徵映射和參數化採樣網格,我們進行雙線性採樣並獲得形狀爲(H’,W’,C’)的輸出特徵映射V。這就意味着,我們可以通過指定採樣網格的形狀,來執行下采樣和上採樣。我們絕對不僅限於雙線性採樣,還可以使用其他的採樣內核,但重要的一點是:它必須是可微的,以便允許損失梯度一直流回的定位網絡。
在這裏插入圖片描述
效果展示:
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章