[論文筆記]Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network

[論文筆記]Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network

圖像質量評價指標之 PSNR 和 SSIM
鏈接

  傳統的方法一般處理的是較小的放大倍數,當圖像的放大倍數在4以上時,很容易使得到的結果顯得過於平滑,而缺少一些細節上的真實感。這是因爲傳統的方法使用的代價函數一般是最小均方差(MSE),即:
lMSESR=1r2WHx=1rWy=1rH(Ix,yHRGθG(Ix,yLR)) l_{MSE}^{SR} = \frac{1}{r^2WH}\sum_{x=1}^{rW}\sum_{y=1}^{rH}(I_{x,y}^{HR}-G_{\theta G} (I^{LR}_{x,y}))
  該代價函數使重建結果有較高的信噪比,但是缺少了高頻信息,出現過度平滑的紋理。該文章中的方法提出的方法稱爲SRGAN, 它認爲,應當使重建的高分辨率圖像與真實的高分辨率圖像無論是低層次的像素值上,還是高層次的抽象特徵上,和整體概念和風格上,都應當接近。整體概念和風格如何來評估呢?可以使用一個判別器,判斷一副高分辨率圖像是由算法生成的還是真實的。如果一個判別器無法區分出來,那麼由算法生成的圖像就達到了以假亂真的效果。

1.Abstract & Introduction

在本文中,我們提出了一種用於圖像超分辨率(SR)的生成對抗網絡(GAN)。我們提出了一個感知損失函數( perceptual
loss function),它包括對抗損失(adversarial loss)和內容損失(content loss)。對抗性損失促使我們使用判別器網絡求解自然圖像流形,這個判別器用來被訓練以區分超分辨圖像和原始逼真圖像。我們使用由感知相似性(perceptual similarity)驅動的content loss,而不是在像素空間中使用相似性。

Contribution

  1. 我們用PSNR和SSIM測量了具有高放大因子的圖像SR的現有技術的新狀態,其中我們使用16塊深度Resnet(SRResnet)模型並針對MSE進行了優化。
  2. 我們提出了一種基於GaN的網絡SRGAN,它是針對一種新的感知損失而優化的網絡。在此,我們將基於MSE的content loss替換爲在VGG網絡的特徵圖上計算的損耗。
  3. 我們對三個公共基準數據集的圖像進行了廣泛的平均意見評分(MOS)測試。

[外鏈圖片轉存失敗(img-tsXUKxIZ-1565666940119)(assets/1564454924568.png)]

2 Method

在訓練時,通過將高斯濾波器(Gaussian filter)應用於IHRI^{HR},通過具有下采樣因子R的下采樣操作來獲得ILRI^{LR}

2.1 Adversarial network architecture

minθGmaxθDEIHRptrain(IHR)[logDθD(IHR)]+EILRpG(ILR)[log(1DθD(GθG(ILR)))] min_{\theta_G}max_{\theta_D}E_{I^{HR}\sim p_{train}(I^{HR})}[logD_{\theta_D}(I^{HR})]+E_{I^{LR}\sim p_{G}(I^{LR})}[log(1-D_{\theta_D}(G_{\theta_G}(I^{LR})))]

  • 在G的網絡結構中(一個residual block),我們使用兩個小的3×3核的卷積層,每一個卷積層後面跟着批歸一化層和ParametriReLu激活函數。
  • 在D中,包含着8個3×3核的卷積層,層數從64增加到512個,與VGG網絡一樣,增加了2倍。在最後是兩個dense layer和最後的sigmoid激活函數。

2.2 Perceptual loss function

我們的感知損失函數LSRL^{SR}的定義對於我們的G網絡的性能至關重要。雖然LSRL^{SR}通常是基於MSE loss建模的,但論文中我們將知覺損失表示爲內容損失(LXSRL_X^{SR})和對抗性損失的加權和。

[外鏈圖片轉存失敗(img-KaRaayHR-1565666940120)(assets/1564456154666.png)]

(圖中的X可以表示爲MSE,也可表示爲VGG/i.j)

2.2.1 content loss

lMSESR=1r2WHx=1rWy=1rH(Ix,yHRGθG(ILR)x,y)2 l_{MSE}^{SR}=\frac{1}{r^2WH}\sum_{x=1}^{rW}\sum_{y=1}^{rH}(I_{x,y}^{HR}-G_{\theta_G}(I^{LR})_{x,y})^2

lVGG/i,jSR=1WijHi,jx=1Wi,jy=1Hi,j(ϕi,j(IHR)x,yϕi,j(GθG(ILR))x,y)2 l_{VGG/i,j}^{SR}=\frac{1}{W_{ij}H_{i,j}}\sum_{x=1}^{W_{i,j}}\sum_{y=1}^{H_{i,j}}(\phi_{i,j}(I^{HR})_{x,y}-\phi_{i,j}(G_{\theta_G}(I^{LR}))_{x,y})^2

  • 公式3 是許多最先進的方法所依賴的最廣泛使用的圖像SR優化目標,然而,在實現特別高的PSNR的同時,MSE優化問題的解決方案通常缺乏高頻內容,這導致具有過於平滑紋理的感知上的不滿意的。
  • 我們基於預訓練的19層VGG網絡的ReLU激活層來定義VGG loss。(With ϕi,j\phi_{i,j} we indicate the feature map obtained by the j-th convolution (after activation) before the i-th maxpooling layer within the VGG19 network, which we consider given.)然後,我們將VGG loss定義爲重構圖像GθG(ILR)G_{\theta_G}(I^{LR})的特徵表示與IHRI^{HR}之間的euclidean distance。如公式3。

2.2.2 Adversarial loss

我們還將我們的GaN的 generative component添加到感知損失中,
lGenSR=n=1NlogDθD(GθG(ILR)) l_{Gen}^{SR}=\sum_{n=1}^{N}-logD_{\theta_D}(G_{\theta_G}(I^{LR}))
[外鏈圖片轉存失敗(img-y3iHjVXU-1565666940120)(assets/1564470668250.png)]

3.detail

code

  1. 我們先預訓練SRResNet網絡,優化函數爲MSEloss。

  2. 接着訓練SRGAN

    • 優化D:adversarial_criterion是BCELoss[外鏈圖片轉存失敗(img-veeQ1KCO-1565666940121)(assets/1564487189168.png)]
    • 優化G:content_criterion爲MSEloss

    [外鏈圖片轉存失敗(img-byiLo7ws-1565666940121)(assets/1564487383533.png)]

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章