STN（Spatial Transformer Networks）空間轉換網絡

原創

吖吖尚

2019-08-28 13:35

個人筆記，補充知識部分爲幫助理解
補充知識點
- 仿射變換與射影（透視）變換
  - 其實仿射變換和透視變換更直觀的叫法可以叫做「平面變換」和「空間變換」或者「二維座標變換」和「三維座標變換」。如果這麼命名的話，其實很顯然，這倆是一回事，只不過一個是二維座標（x,y），一個是三維座標（x,y,z）。也就是：
  - 仿射變換：（6個參數）
  - 射影變換：（8個參數，a33是1）
- 雙線性插值
  - https://blog.csdn.net/xbinworld/article/details/65660665
CNN具有一定的空間不變性（因爲卷積操作相當於是一種滑動濾波，輸入小範圍內的改變並不會有很大影響，池化也爲不變性提供了容錯率，及輸入小範圍改變後並不會影響輸出，即，池化與卷積的層數越多，核越大，空間不變性越強，但這也會使局部信息丟失，所以這些層越多準確率肯定是下降的，所以主流的CNN分類網絡一般都很深，但是池化核都比較小，比如2×2，這也是很多網絡的總降採樣比一般都是16或32，基本沒有更大的（局部信息丟失），降採樣比過小的話會出現空間不變性過弱，泛化能力不好（降採樣比也要根據數據集中圖像的size來調整））
STN是爲了增強空間不變性的，CNN是盡力讓網絡適應物體的形變，而STN是直接通過 Spatial Transformer 將形變的物體給變回到正常的姿態（比如把字擺正），然後再給網絡識別。
Localisation Network (Localisation net決定輸入所需變換的參數θ)
- 以的feature map作爲輸入，以變換矩陣的元素作爲輸出的網絡結構，變換矩陣可以爲任意形式，對於仿射變換矩陣而言，爲一個6參數矩陣。
- 網絡可以是以迴歸層爲終止的多種網絡結構，可以採用全連接結構也可以採用卷積結構。
Grid generator(Parameterised Sampling Grid ) (Grid generator通過θ和定義的變換方式尋找輸出與輸入特徵的映射T(θ)，即實現像素點座標的對應關係)（類似於拼圖）
- （這部分的代碼就是實現下面的公式）
Sampler(Differentiable Image Sampling)(Sample結合位置映射和變換參數對輸入特徵進行選擇並結合雙線性插值進行輸出)
- 經過變換後，肯定會得到小數座標（原圖片上的），爲了可以反向傳播所以採用了雙線性插值的方式，從小數座標得到整數座標，從而找到原圖片上的整數座標。