Spatial Transformer Networks

原創

2018-11-04 07:56

這篇論文自己也理解的不是很深，把自己的當時記的筆記拿出來和大家分享一下，有什麼錯誤的地方希望大家指正。（第一次寫CSDN博客，跪求各位大佬多多指點）
一、abstract1

CNN的池化操作只有在很深的層次上才具有良好的形變容忍能力，而且能力有限，需要構建很深網絡結構才能達到目的，這意味着網絡難以訓練，容易過擬合。與池化層(接收字段是固定的和局部的)不同，空間轉換器模塊是一種動態機制，用以替代池化層，可以通過爲每個輸入樣本生成一個適當的轉換參數，從而積極地對圖像進行空間轉化。變換是在在整個feature map(非局部)上執行轉換，可以包括縮放、裁剪、旋轉以及非剛性變形。這使得包括空間轉換器在內的網絡不僅可以選擇最相關的圖像區域(注意)，還可以將這些區域轉換爲規範的、預期的姿態，以簡化後面網絡的識別。

問題：空間變換怎麼實現梯度反傳和訓練

二、網絡結構
從U輸出的特徵輸入Localsation net 預測出變換參數θ, 構造從U到V的變換函數（矩陣）簡化問題：只考慮單通道特徵圖輸入，進行單種變換。將特徵圖輸入Localisation network ,經過隱藏層預測空間轉換參數，即每組參數都是基於特定的輸入產生的。然後用預測的參數構建一個採樣網格（決定輸入圖中哪些點需要被採樣的點集），採樣器利用輸入特徵圖和採樣網格的點採樣出轉換後的圖像。

優點：通過爲卷積神經網絡提供確切的空間變換，空間變換機制解決了上述問題，它擁有3個屬性。
1.模塊化：只需要進行微小的調整，就可以將空間變換網絡插入到現有體系結構的任何地方。
2.可區分性：可以使用反向傳播算法進行訓練，允許對所插入的模型進行端到端的訓練。
3.動態性：在每個輸入樣本的特徵映射上執行主動空間變換，而池化層則是對所有輸入樣本進行操作。

三、每部分詳細結構

3.1 Localisation Nework

作用，將特徵圖輸入，預測一組變換參數，參數個數依賴於變換類型，比如仿射變換需要六個參數。

3.2 Parameterised Sampling Grid 網格生成器的作用是輸出一個參數化的採樣網格，這是一組點集，即輸入映射經過採樣產生期望的轉換輸出。具體來說，網格生成器首先創建與輸入圖像U（格式爲（H，W））相同大小的歸一化網格，即覆蓋整個輸入特徵映射的一個索引集（xt，yt）映射（上標t代表輸出特徵映射的目標座標）。由於我們對這個網格做了仿射變換，並且想要使用變換，我們繼續在座標矢量上添加一行進行計算。最後，我們將6個參數θ塑造爲一個2*3矩陣，並執行下面的乘法運算，就會得到我們所需要的參數化採樣網格。

把目標圖像的座標放在左邊的原因：這樣可以保證目標圖像上的每個點都能和原圖像對應起來，不會出現座標缺失的情況。
可微分的圖像採樣網絡由於雙線性插值是可微的，因此非常適用於空間變換網絡。通過輸入特徵映射和參數化採樣網格，我們進行雙線性採樣並獲得形狀爲（H’，W’，C’）的輸出特徵映射V。這就意味着，我們可以通過指定採樣網格的形狀，來執行下采樣和上採樣。我們絕對不僅限於雙線性採樣，還可以使用其他的採樣內核，但重要的一點是：它必須是可微的，以便允許損失梯度一直流回的定位網絡。

效果展示：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Spatial Transformer Networks

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

Garnet：微軟官方基於.NET開源的高性能分佈式緩存存儲數據庫

Flink執行圖

Java響應式編程

評估統計算法在銀行僞造鈔票檢測中的價值

nodejs學習06——小案例

PCL 點雲庫學習指南

從 github 下載Robo Ware Studio

Spatial Transformer Networks

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結