[論文筆記]Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network

圖像質量評價指標之 PSNR 和 SSIM
鏈接

傳統的方法一般處理的是較小的放大倍數，當圖像的放大倍數在4以上時，很容易使得到的結果顯得過於平滑，而缺少一些細節上的真實感。這是因爲傳統的方法使用的代價函數一般是最小均方差（MSE），即：
$l_{MSE}^{SR} = \frac{1}{r^2WH}\sum_{x=1}^{rW}\sum_{y=1}^{rH}(I_{x,y}^{HR}-G_{\theta G} (I^{LR}_{x,y}))$
該代價函數使重建結果有較高的信噪比，但是缺少了高頻信息，出現過度平滑的紋理。該文章中的方法提出的方法稱爲SRGAN, 它認爲，應當使重建的高分辨率圖像與真實的高分辨率圖像無論是低層次的像素值上，還是高層次的抽象特徵上，和整體概念和風格上，都應當接近。整體概念和風格如何來評估呢？可以使用一個判別器，判斷一副高分辨率圖像是由算法生成的還是真實的。如果一個判別器無法區分出來，那麼由算法生成的圖像就達到了以假亂真的效果。

1.Abstract & Introduction

在本文中，我們提出了一種用於圖像超分辨率(SR)的生成對抗網絡(GAN)。我們提出了一個感知損失函數（ perceptual
loss function），它包括對抗損失（adversarial loss）和內容損失（content loss）。對抗性損失促使我們使用判別器網絡求解自然圖像流形，這個判別器用來被訓練以區分超分辨圖像和原始逼真圖像。我們使用由感知相似性（perceptual similarity）驅動的content loss，而不是在像素空間中使用相似性。

Contribution

我們用PSNR和SSIM測量了具有高放大因子的圖像SR的現有技術的新狀態，其中我們使用16塊深度Resnet(SRResnet)模型並針對MSE進行了優化。
我們提出了一種基於GaN的網絡SRGAN，它是針對一種新的感知損失而優化的網絡。在此，我們將基於MSE的content loss替換爲在VGG網絡的特徵圖上計算的損耗。
我們對三個公共基準數據集的圖像進行了廣泛的平均意見評分(MOS)測試。

2 Method

在訓練時，通過將高斯濾波器（Gaussian filter）應用於 $I^{HR}$ ，通過具有下采樣因子R的下采樣操作來獲得 $I^{LR}$ 。

2.1 Adversarial network architecture

$min_{\theta_G}max_{\theta_D}E_{I^{HR}\sim p_{train}(I^{HR})}[logD_{\theta_D}(I^{HR})]+E_{I^{LR}\sim p_{G}(I^{LR})}[log(1-D_{\theta_D}(G_{\theta_G}(I^{LR})))]$

在G的網絡結構中（一個residual block），我們使用兩個小的3×3核的卷積層，每一個卷積層後面跟着批歸一化層和ParametriReLu激活函數。
在D中，包含着8個3×3核的卷積層，層數從64增加到512個，與VGG網絡一樣，增加了2倍。在最後是兩個dense layer和最後的sigmoid激活函數。

2.2 Perceptual loss function

我們的感知損失函數 $L^{SR}$ 的定義對於我們的G網絡的性能至關重要。雖然 $L^{SR}$ 通常是基於MSE loss建模的,但論文中我們將知覺損失表示爲內容損失( $L_X^{SR}$ )和對抗性損失的加權和。

（圖中的X可以表示爲MSE，也可表示爲VGG/i.j）

2.2.1 content loss

$l_{MSE}^{SR}=\frac{1}{r^2WH}\sum_{x=1}^{rW}\sum_{y=1}^{rH}(I_{x,y}^{HR}-G_{\theta_G}(I^{LR})_{x,y})^2$

$l_{VGG/i,j}^{SR}=\frac{1}{W_{ij}H_{i,j}}\sum_{x=1}^{W_{i,j}}\sum_{y=1}^{H_{i,j}}(\phi_{i,j}(I^{HR})_{x,y}-\phi_{i,j}(G_{\theta_G}(I^{LR}))_{x,y})^2$

公式3 是許多最先進的方法所依賴的最廣泛使用的圖像SR優化目標，然而，在實現特別高的PSNR的同時，MSE優化問題的解決方案通常缺乏高頻內容，這導致具有過於平滑紋理的感知上的不滿意的。
我們基於預訓練的19層VGG網絡的ReLU激活層來定義VGG loss。（With $\phi_{i,j}$ we indicate the feature map obtained by the j-th convolution (after activation) before the i-th maxpooling layer within the VGG19 network, which we consider given.）然後，我們將VGG loss定義爲重構圖像 $G_{\theta_G}(I^{LR})$ 的特徵表示與 $I^{HR}$ 之間的euclidean distance。如公式3。

2.2.2 Adversarial loss

我們還將我們的GaN的 generative component添加到感知損失中,
$l_{Gen}^{SR}=\sum_{n=1}^{N}-logD_{\theta_D}(G_{\theta_G}(I^{LR}))$

3.detail

code

我們先預訓練SRResNet網絡，優化函數爲MSEloss。
接着訓練SRGAN
- 優化D：adversarial_criterion是BCELoss[外鏈圖片轉存失敗(img-veeQ1KCO-1565666940121)(assets/1564487189168.png)]
- 優化G：content_criterion爲MSEloss

[論文筆記]Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network

[論文筆記]Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network

1.Abstract & Introduction

Contribution

2 Method

2.1 Adversarial network architecture

2.2 Perceptual loss function

2.2.1 content loss

2.2.2 Adversarial loss

3.detail

如何使用 JS 判斷用戶是否處於活躍狀態

Mono 支持LoongArch架構

lightdb秒級增加列和刪除列（not null帶默認值）

lightdb數據庫超時相關控制參數

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

❤️‍🔥 Solon Cloud Event 新的事務特性與應用

網絡爬蟲的祕密：如何高效地抓取JD.com視頻鏈接

lightdb mysql 8.0兼容之不可見主鍵

使用 JS 實現在瀏覽器控制檯打印圖片 console.image()

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（四）使用域名訪問網站應用

[論文筆記]Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network

[論文筆記]Distilling With Residual Network for Single Image Super Resolution

閱讀CariFaceParsing(未完待續。。。。)

網絡編程模型

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結