[論文速度] 超分系列:基於頻率分離的圖像超分辨率算法 兩篇 ICCVW 2019 和 CVPRW 2020

目錄

Frequency Separation for Real-World Super-Resolution

Abstract

Method

Guided Frequency Separation Network for Real-World Super-Resolution

Abstract

Method


 

Frequency Separation for Real-World Super-Resolution

[ICCVW 2019] [GitHub]

Abstract

Most of the recent literature on image super-resolution (SR) assumes the availability of training data in the form of paired low resolution (LR) and high resolution (HR) images or the knowledge of the downgrading operator (usually bicubic downscaling). While the proposed methods perform well on standard benchmarks, they often fail to produce convincing results in real-world settings. This is because real-world images can be subject to corruptions such as sensor noise, which are severely altered by bicubic downscaling. Therefore, the models never see a real-world image during training, which limits their generalization capabilities. Moreover, it is cumbersome to collect paired LR and HR images in the same source domain.

提出問題:人工合成低分辨率數據與真實低分辨率數據的降質情況不統一。

最近關於圖像超分辨率 (SR) 的文獻大多假設有成對的低分辨率 (LR) 和高分辨率 (HR) 圖像的訓練數據,或者假設有降級算子的知識 (通常是雙三次降尺度)。雖然所提出的方法在標準基準上表現良好,但在現實環境中往往無法產生令人信服的結果。這是因爲現實世界的圖像可能會受到諸如傳感器噪聲等干擾,這些干擾會被雙三次尺度的降尺度嚴重改變。因此,模型在訓練過程中不會看到真實的圖像,這限制了它們的泛化能力。此外,在同一源域中收集 LR 和 HR 成對的圖像是很麻煩的。

 

To address this problem, we propose DSGAN to introduce natural image characteristics in bicubically downscaled images. It can be trained in an unsupervised fashion on HR images, thereby generating LR images with the same characteristics as the original images. We then use the generated data to train a SR model, which greatly improves its performance on real-world images. Furthermore, we propose to separate the low and high image frequencies and treat them differently during training. Since the low frequencies are preserved by downsampling operations, we only require adversarial training to modify the high frequencies. This idea is applied to our DSGAN model as well as the SR model. We demonstrate the effectiveness of our method in several experiments through quantitative and qualitative analysis. Our solution is the winner of the AIM Challenge on Real World SR at ICCV 2019.

解決方法

1) 提出了在雙三次縮小圖像中引入自然圖像特徵的 DSGAN 算法。它可以在無監督的方式下對 HR 圖像進行訓練,從而生成具有與原始圖像相同特徵的 LR 圖像。然後使用生成的數據來訓練一個 SR 模型,這大大提高了它在真實世界圖像上的性能。

2)此外,本文在訓練時將低頻率和高頻率的圖像分開,並區別對待它們。由於低頻率是通過下采樣操作保存的,只需要對抗性訓練來修改高頻率。這種思想適用於 DSGAN 模型和 SR 模型。

實驗結果:通過定量和定性分析,驗證了該方法的有效性。該方法在2019年 ICCV 上真實 SR 的 AIM 挑戰中獲得第一名。

 

Method

核心思想:

step 1. 先對 HR 圖像進行人工下采樣,由於該過程得到的 LR 和真實的 LR 降質過程並不相同,所以要對人工下采樣圖像進行 域遷移

step 2. 用遷移的圖像進行 SR 網絡訓練,由於遷移後的圖像更接近真實降質圖像 LR,因此訓練的 SR 網絡可以有效復原真實 LR 圖像的超分辨。

下面就介紹上述兩個過程中網絡是如何設計的。

  • 域遷移

域遷移部分對應了摘要提到的解決方法 2)。先看這個 域遷移網絡:

圖1

B 爲雙三次降尺度方法,紫色場爲高通濾波器和低通濾波器。紅色三角形表示損失函數,橙色域表示神經網絡。

注意到以下幾點:

1. 該網絡特別像是 一半的 cycleGAN。但正是因爲只有 一半,因此域遷移可能不會那麼順利,需要提供新的先驗。

2. 本文用的先驗,就是人工合成的 LR 和 真實的 LR 區別在於高頻分量,而不是低頻分量。因爲降採樣過程影響最大的還是高頻分量。

3. 因此,該模型最大的特點就是 高低頻分離 的方式,引導網絡實現 高頻分量的域遷移。

 

  • SR 網絡訓練

用遷移的圖像進行 SR 網絡訓練,網絡結構如下:

圖2

注意以下幾點:

1. 由於遷移後的圖像更接近真實降質圖像 LR,因此訓練的 SR 網絡可以有效復原真實 LR 圖像的超分辨。

2. 這裏在判別器上用了新的技巧,即判別器只判別高頻分量是否屬於同一個域,實現方式是將輸入圖像經過高通濾波器,只判別兩個輸入圖像的高頻分量。

 

Guided Frequency Separation Network for Real-World Super-Resolution

[CVPRW 2020] [GitHub]

Abstract

Training image pairs are unavailable generally in realworld super-resolution. Although the LR images can be down-scaled from HR images, some real-world characteristics (such as artifacts or sensor noise) have been removed from the degraded images. Therefore, most of state-of-theart super-resolved methods often fail in real-world scenes. In order to address aforementioned problem, we proposed an unsupervised super-resolved solution. The method can be divided into two stages: domain transformation and super-resolution. A color-guided domain mapping network was proposed to alleviate the color shift in domain transformation process. In particular, we proposed the Color Attention Residual Block (CARB) as the basic unit of the domain mapping network. The CARB which can dynamically regulate the parameters is driven by input data. Therefore, the domain mapping network can result in the powerful generalization performance. Moreover, we modified the discriminator of the super-resolution stage so that the network not only keeps the high frequency features, but also maintains the low frequency features. Finally, we constructed an EdgeLoss to improve the texture details. Experimental results show that our solution can achieve a competitive performance on NTIRE 2020 real-world super-resolution challenge.

提出問題:訓練圖像對通常在現實世界的超分辨率中是不可用的。雖然 LR 圖像可以從 HR 圖像中縮小,但一些真實世界的特徵 (如人工製品或傳感器噪聲) 已經從退化的圖像中刪除。因此,大多數最先進的超分辨率方法往往在真實場景中失敗。

解決方法:本文提出了一個無監督的超解決方案。該方法可分爲區域變換和超分辨率兩個階段。具體貢獻包括以下幾個方面:

1)提出了一種顏色引導的域映射網絡,解決了域變換過程中的顏色偏移問題

2)特別地,提出了顏色注意剩餘塊 (CARB) 作爲域映射網絡的基本單元。可動態調節參數的 CARB 是由輸入數據驅動的。因此,域映射網絡具有強大的泛化性能。

3)此外,本文對超分辨級的判別器進行了改進,使網絡在保留高頻特徵的同時,也保留了低頻特徵。

4)最後,構造了一個邊緣損失來改善紋理細節

實驗結果:實驗結果表明,本文的解決方案可以在 2020 年真實圖像的超分辨率挑戰中實現很好的性能。

 

Method

這裏針對摘要的四個工作,分別簡單介紹。

  • 顏色引導的域映射網絡。

整體的框架:

圖3

注意到以下幾點理解:

1. 這個網絡特別像 一半的 cycleGAN 網絡,實現域的遷移,那遷移的是什麼特徵呢?遷移的是高頻分量。

2. 本文認爲,真實低分辨率圖像 z 與人工合成低分辨率圖像 x 之間的差別在於 高頻分量。因此,x 遷移到 z^ 的過程中,要保留原來的顏色特徵(低頻分量),這樣網絡只遷移了高頻分量,此時 z^ 和 z 的高頻分量屬於同一個域。

3. 爲了充分保留源域的低頻特徵,本文用了三個方法:顏色引導生成器;低頻 Loss;感知 Loss。

4. 兩個細節是 顏色引導生成器 和 判別器。後面繼續介紹。

 

  • 顏色注意剩餘塊 (CARB)

顏色引導生成器:

圖4

原文:

The top half of the network is a guided parameter network, to yield the bias (mean) and weight (variance) of CARB. The bias is the global information, so we utilize several convolutions with kernel size of 3 and three global pooling layers with kernel size of 5 to extract it. After than, the original image subtracts this global information will be fed into the sigmoid layer. The global information is used as bias, and the final output value is used as weight for CARB. For the CARB, this is a residual block. We combine spatial attention [30] and AdaIN [8] idea to enhance spatial perception. Therefore, the content and color of the original image can be maintained.

網絡的上半部分是引導參數網絡,輸出的是 CARB 的偏置 (均值) 和權值 (方差)。偏置是全局信息,所以利用幾個 kernel size 爲 3 的卷積和三個 kernel size 爲 5 的全局 pooling 層來提取偏置。之後,原始圖像減去這個全局信息將被輸入到 sigmoid 層。全局信息作爲偏差,最終輸出值作爲 CARB 的權重。對於 CARB,這是一個殘留的塊。結合空間注意力[30]和AdaIN[8]理念,增強空間感知。這樣就可以保留原始圖像的內容和顏色。

該方法注意的是 AdaIN,最近很火的方法。詳細介紹可以參考一篇非常好的博客 https://zhuanlan.zhihu.com/p/158657861

 

  • 判別器進行了改進

圖5

There is a Guassian high-pass filter before several convolution which kernel size of 3, to extract the high frequency information. This design allows the discriminator Gz(·) to treat only the highfrequency part for real and fake image, making the training of the whole GAN more stable and fast convergent.

DZ 和 DY 見圖3。

在幾個核大小爲 3 的卷積前有一個高斯高通濾波器來提取高頻信息。本設計允許 Gz(·) 判別器對真假圖像只處理高頻部分,使整個 GAN 的訓練更加穩定和快速收斂。

 

  • 邊緣損失來改善紋理細節

Edge Loss

where FE denotes Canny operator, n is the batchsize, zi ∈ Zˆ is generated by Gx→z(·), yi ∈ Y.

這裏是約束 真實高分辨率圖像 和 生成高分辨率圖像 的 Canny 邊緣是一致的。

 

 

 

 

 

 

 

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章