[2] [Recovering Realistic Texture in Image Super-resolution by Deep Spatial Feature Transform]學習筆記
版權歸屬:
更多關注:
文章目錄
Recovering Realistic Texture in Image Super-resolution by Deep Spatial Feature Transform
這篇文章提出Spatial Feature Transform(SFT)來super-resolution image。
文中原話: an SFT layer is conditioned on semantic segmentation probability maps, based on which it generates a pair of modulation parameters to apply affine transformation spatially on feature maps of the network.
1 Spatial Feature Transform(SFT)的結構
上圖中上一排是SR網絡中的中間層features,在中間通過下一排學習的兩個affine transform參數gamma, beta,通過element-wise方式與features相乘。
下一排網絡輸入是condition priors,它是通過Conditional Network網絡得到的結果,這一層輸出是gamma, beta參數。
2 Conditional Network
SFT的輸入除了前面結構輸出的feature,還有Conditional Network輸出的condition prior,它是condition network輸出的。
condition network輸入是segmentation probability maps,然後是4個conv,每個卷積kernels是1x1,這樣是爲了避免不同categorical regions的影響。
3 SR Network
這個網絡結構中包含16個residual blocks,每個residual blocks由SFT layer和卷積組成,第一個conv後面與最後的SFT layer後面又增加了skip connection,使網絡更容易訓練。
接着是upsampling layers,重採樣方法是nearest neighbor upsampling。
前面說的這個結構加起來是一個generator,然後加上一個discriminator,定義了percetual loss and adversarial loss,組成一個GAN網絡結構。
discriminator輸出兩個結果:real or fake, input category。