論文閱讀筆記之——《Deep Plug-and-Play Super-Resolution for Arbitrary Blur Kernels》

本博文爲論文的閱讀筆記。

開源的代碼:https://github.com/cszn/DPSR

本文其實相當於盲超分(傳統的超分就是做bicubic),做的就是超分+模糊+去噪。

關鍵詞plug-and play image restoration(即插即用圖像恢復),通過將復原的各個模塊,看作是工具箱一樣,即插即用,具有較高的靈活性。本文就是通過這樣的一個即插即用的框架來實現對任意模糊kernel的處理。

通過設計一個新的SISR退化模型來代替盲去模糊的模糊核估計。並引入能量函數來優化新的退化模型。並通過variable splitting technique(變量分割技術)來引入即插即用的模塊。which allows us to plug any super-resolver prior rather than the denoiser prior as a modular part。並且採用合成的圖片和真實的圖片來對算法進行評估。

通過本人之前的博客與實驗,也可以發現,準確的,或者說好的退化模型處理的數據,對於SR網絡的泛化能力有很重要的意義。因此本文也再次對於SISR的degradation model進行了分析(左老師之前好幾篇文章都是開篇就介紹退化模型)

Given the above considerations, it is very necessary to address the following two issues: 1) designing an alternative degradation model, and 2) extending existing DNNbased methods for bicubic degradation to the new degradation model so as to exploit the power of DNN.

論文的貢獻:

1、論文所提出的新的退化參數模型(比bicubic degradation模型更加真實,考慮了任意模糊核,從而使得現有的去模糊的方法可以用於模糊kernel的估計)的優點:

First, it generalizes the well-studied bicubic degradation model

Second, it enables us to adopt the available blind deblurring methods to estimate the blur kernel from the given LR image.

2、通過deep plug-and-play super-resolution (DPSR) framework 將基於深度網絡的圖像復原整合到a variable splitting based iterative optimization scheme。可以處理任意模糊核

模糊失真可以有效的在Fourier 域被處理。因此可以處理任意的模糊核。(本文主要focus在非盲超分的任意模糊核而不是盲超分的任意模糊核)所以這篇工作其實就是“Briefly speaking, our work makes a valuable intermediate step from existing bicubic degradation based SISR to ultimate blind SISR.”

3、引入能力函數

4、展示了即插即用模塊不僅僅侷限於高斯去噪(Gaussian denoiser)

 

Plug and play image restoration (接下來會專門對這部分做調研)

Plug and play image restoration對於逆問題的處理有較好的性能。它的主要思想是將energy function通過variable splitting 技術以及用任何現成的高斯降噪器替換先前相關的子問題。

 

 

 

翻譯

下面是本文的翻譯版本(來自於本人課題組的師弟的調研報告~)

雖然基於深度神經網絡(DNN)的單圖像超分辨率(SISR)方法正在迅速普及,但它們主要是針對廣泛使用的雙三次退化而設計的,對於任意模糊核的超分辨率低分辨率(LR)圖像仍然存在根本性的挑戰。同時,插件式圖像恢復由於其模塊化的結構,便於對去噪先驗進行插件,因此具有較高的靈活性。本文提出了一種基於雙三次退化的深度SISR算法框架,利用即插即用框架對任意模糊核的LR圖像進行處理。具體來說,我們設計了一個新的SISR退化模型,以利用現有的盲去模糊方法進行模糊核估計。爲了優化新的退化誘導能量函數,我們通過變量分裂技術推導了一個即插即用算法,該算法允許我們插入任何超分解先驗而不是去噪先驗作爲模塊部分。對合成和真實LR圖像的定量和定性評價表明,所提出的深度即插即用超分辨率框架能夠靈活有效地處理模糊LR圖像。

 

  1. Introduction

單圖像超分辨率(SISR)是一個具有較高理論和實用價值的經典問題,其目標是估計給定低分辨率(LR)圖像y的乾淨高分辨率(HR)圖像x。基本上,LR和HR圖像之間的關係是由退化模型來描述的,退化模型定義了LR圖像如何從HR圖像退化。經驗和理論研究證明,準確的降解模型對SISR的成功至關重要[20,60]。因此,有必要首先回顧SISR的降解模型。

 

事實上,現有的SISR方法大多是在一定退化模型的假設下設計的。有兩種廣泛使用的降解模型。第一個,承認一般SISR退化模型,給出了 (1),其中x k代表模糊內核k和HR圖像之間的卷積,s代表比例因子, n是加性高斯白噪聲(AWGN)噪聲σ水平。這種退化模型在開發基於模型的優化方法上得到了廣泛的研究[13,19]。然而,這些方法大多假設先驗已知的模糊核,在實際應用中難以估計。儘管像[41,53]這樣的一些工作主要關注於評估blur內核,但遺憾的是,它們的源代碼並沒有公開可用。這些被我們稱爲雙三次退化的物質可能被最廣泛地使用,其形式是

這裏,除非另有說明,s代替了具有尺度因子s的雙三次降採樣器(Matlab默認函數imresize)。由於其簡單性,雙三次降採樣器模型成爲評價SISR方法的基準設置[29,36]。特別是,它極大地促進了爲SISR[2]開發強大的深度神經網絡(DNN)。然而,在許多實際場景中,這種簡單的降級不可避免地會導致較差的結果[20,65]。然而,在擴展到更現實的退化模型方面,幾乎沒有做什麼工作。

 

基於上述考慮,有必要解決以下兩個問題:1)設計一種替代的降解模型,2)將現有的基於DNN的雙三次降解方法擴展到新的降解模型中,以充分利用DNN的能量。爲此,我們首先提出了一個簡單而有效的退化模型,該模型假設LR圖像是HR圖像的雙採樣、模糊和噪聲版本。與Eqn(1)給出的一般退化模型相比,該模型具有兩個優點。首先,對Eqn(2)給出的雙三次退化模型進行了推廣。其次,它使我們能夠採用現有的盲去模糊方法來估計給定LR圖像的模糊核。爲了將基於神經網絡的SISR方法推廣到新的退化模型中,提出了一種基於神經網絡的深度即插即用超分辨(DPSR)框架,該框架將基於神經網絡的超分辨器集成到一個基於變量分裂的迭代優化方案中。結果表明,在傅里葉域中可以有效地處理模糊失真。因此,可以處理任意模糊內核,這是本文的主要目標之一。此外,與現有的即插即用框架[13]不同,[13]通常將現成的高斯去噪器作爲模塊部分進行插拔,而本文提出的方法是通過對現有的基於dnn的超級解析器進行少量修改,實現插拔步驟。

到目前爲止,值得強調的是,我們主要關注的是針對任意均勻模糊內核的非盲SISR,而不是針對任意非均勻模糊內核的盲SISR。一方面,非盲SISR對盲SISR非常重要,盲SISR通常包括交替更新模糊內核和應用非盲SISR更新超分辨率圖像。雖然最近的一些工作嘗試訓練DNN直接估計乾淨圖像進行盲消模糊,但其實用性還有待進一步評價。另一方面,雖然非均勻模糊核往往是一個更現實的假設,但它過於複雜,仍然是圖像去模糊[31]的一個難題。事實上,對於實際應用來說,任意的均勻模糊內核假設已經比簡單的雙三次核要好得多。簡單地說,我們的工作使一個有價值的中間步驟,從現有的雙三次退化爲基礎的SISR到最終盲SISR。

總結了本工作的貢獻:

提出了一種比雙三次退化模型更符合實際的SISR退化模型。它考慮了任意的模糊內核,並支持使用現有的去模糊方法進行模糊內核估計。

提出了一種深度即插即用的超分辨率框架來解決SISR問題。DPSR不僅適用於雙三次退化,而且可以處理任意模糊核的LR圖像。由於迭代方法的目的是求解新的退化誘導能函數,因此提出的DPSR算法具有良好的原則性。

提出的DPSR擴展了現有的即插即用框架,表明了SISR的即插即用先驗並不侷限於高斯去噪。

2.Related work

2.1.DNN-based SISR

1)雙三次的退化。第一個基於dnn的SISR方法被稱爲SRCNN[17],它使用了一個相對較淺的網絡,並沿用了之前的SISR方法,如a +[55]和ScSR[61],利用雙三次插值合成LR圖像。從那時起,一些研究者將退化模型固定爲雙三次退化,開始通過DNN從不同的方面提高SISR性能,包括PSNR和SSIM值、效率以及大尺度因子下的感知視覺質量。爲了在PSNR和SSIM方面提高SISR性能,Kim等人提出的甚深超分辨率(VDSR)網絡表明,最直接的方法是增加網絡深度。然而,VDSR對雙三次插值LR圖像進行處理,影響了效率。爲此,提出了FSRCNN[18]和ESPCN[50]直接操作LR輸入,並在網絡端採用向上擴展操作。考慮到視覺結果往往在大尺度因子下被過度平滑(如4),利用VGG [52] loss和GAN[24]loss來提高感知視覺質量[34,49,58]。雖然這些方法在雙三次退化上取得了很大的成功[36,44,68],但是由於退化模型的不匹配,這些方法在大多數真實圖像上的性能都很差。

2) Beyond bicubic degradation. 

2)超過雙三次退化。在[20]中,作者指出模糊核的精確估計比複雜圖像的先驗更重要。從那時起,人們已經做了幾次嘗試來處理雙三次退化之外的LR圖像。Zhang等[63]提出了一種即插即用框架(IRCNN)來求解Eqn(1)引起的能量函數。雖然理論上IRCNN可以處理任意的模糊核(請參考[13]),但在實際中這種退化模型的模糊核是很難估計的。Zhang等[65]提出了一種以兩個關鍵降解參數爲輸入的基於dnn的通用解決方案(general dnn - based solution, SRMD)。然而,SRMD只考慮高斯模糊核。在[51]中,作者提出了一種零鏡頭超分辨率(ZSSR)方法,該方法在測試LR圖像的基礎上訓練特定圖像的DNN,並可以提取估計模糊核等退化參數來提高性能。對於內部重複結構的LR圖像,ZSSR顯示出令人印象深刻的效果,但對於嚴重模糊的LR圖像,ZSSR效果較差。

如上所述,上述方法有兩個主要缺點。首先,它們難以模糊內核估計。其次,它們通常是針對高斯模糊核設計的,因此不能有效地處理嚴重模糊的LR圖像。需要注意的是,在[66]中提出了一種用於運動模糊的深度盲SISR方法。然而,它處理任意模糊內核失真的能力有限。

2.2.Plug-and-playimagerestoration

即插即用圖像恢復技術在[15,57,69]首次提出,由於其在處理各種反問題時的靈活性和有效性,受到了廣泛的關注。該方法利用變量分裂技術實現了能量函數的初始化,並採用任意一種現成的高斯去噪器來代替先驗相關子問題(the prior associated subproblem)。與傳統的基於手工圖像先驗的圖像恢復方法不同,它可以隱式地定義即插即用先驗。值得注意的是,DNN具有較強的降噪能力,能夠很好地實現降噪效果。近年來,從以下幾個方面開展了大量即插即用的工作:1)不同的變量分割算法,如半二次分裂(HQS)算法[1]、交替方向乘法器(ADMM)算法[8]、FISTA[4]、原對偶算法[11,42];2)不同的應用,如泊松去噪[47],去噪[26],去模糊[56],超分辨率[9,13,28,63],繪製[40];3)不同類型的去噪先驗,如BM3D[14,21]、基於dnn的去噪先驗[6,62]及其組合[25];4)從不動點[13,37,38]和納什均衡[10,16,45]角度對收斂性進行理論分析。據我們所知,現有的即插即用圖像恢復方法大多將高斯去噪作爲先驗。我們將證明,對於即插即用SISR的應用,先驗並不侷限於高斯去噪。相反,一個簡單的超分解器先驗可以用來解決一個更復雜的SISR問題。

3.Method

3.1.Newdegradationmodel

由於現有的方法廣泛使用雙三次下采樣器來合成或增強LR圖像,因此合理的假設是雙三次下采樣的HR圖像(即,)也是一個乾淨的圖像。根據這個假設,Eqn(3)實際上對應一個去模糊問題,然後是一個雙三次退化的SISR問題。因此,我們可以充分利用現有的經過充分研究的去模糊方法來估計k。顯然,這是相對於Eqn(1)給出的退化模型的顯著優勢。

一旦定義了退化模型,下一步就是制定能量函數。根據最大後驗概率(MAP),能量函數由

3.2. Deep plug-and-play SISR

爲了求解Eqn(4),我們首先採用變量分裂技術引入輔助變量z,得到如下等價約束優化公式

可以看出,Eqn.(7)和Eqn.(8)分別是關於z和x的交替極小化問題。特別地,通過假設卷積是在圓形邊界條件下進行的,Eqn(7)具有快速閉形式解:

到目前爲止,我們已經看到Eqn(7)和Eqn(8)給出的兩個子問題相對容易求解。事實上,它們也有明確的解釋。一方面,由於模糊核k只涉及到閉形式解,Eqn(7)解決了模糊的失真問題。換句話說,它使當前的估計變得不那麼模糊。另一方面,Eqn(8)將不那麼模糊的圖像映射爲更清晰的HR圖像。經過多次交替迭代,最終重建的HR圖像應該沒有模糊和噪聲。

3.3. Deep super-resolver prior

爲了充分利用DNN的優點,我們需要根據Eqn(12)指定以噪聲級爲輸入的超分解網絡。受[23,64]的啓發,我們只需要修改大多數現有的基於dnn的超級解析器,以一個額外的噪聲水平圖作爲輸入。或者,可以直接採用SRMD作爲超級解析器,因爲它的輸入已經包含了噪聲級映射。

在爲每個尺度因子訓練單獨的SRResNet+模型之前,我們需要從給定的HR圖像合成LR圖像及其噪聲水平圖。根據Eqn(11)給出的退化模型,LR圖像是從HR圖像雙三次下采樣,然後被AWGN預定義的噪聲水平範圍σ干擾。對於相應的噪聲水平圖,它具有相同的空間大小的LR圖片,所有的元素都是σ。在[65]之後,我們將噪聲級別範圍設置爲[0,50]。對於HR圖像,我們從DIV2K數據集[2]中選擇800張訓練圖像。

由於這項工作主要關注具有任意模糊內核的SISR。我們省略了SRResNet+與其他方法在雙三次降解方面的比較。作爲一個簡單的比較,SRResNet+在Set5[5]上的平均PSNR增益比SRResNet[34]高出0.15dB。

3.4. Comparison with related methods

在本節中,我們強調了所提議的DPSR方法與幾個密切相關的基於dnn的方法之間的根本區別。

  1. 級聯去模糊和SISR。對於具有任意模糊核的超分辨LR圖像,一種啓發式方法是先進行去模糊,然後對去模糊後的LR圖像進行超分辨。然而,這種級聯兩步法的缺點是,第一步的攝動誤差(the perturbation error)會在第二步放大。相反,DPSR對Eqn(4)給出的能量函數進行迭代優化。因此,DPSR趨向於提供更好的性能。
  2. Fine-tuned SISR model with more training data:也許最直接的方法是對現有的基於雙三次退化的SISR模型進行微調,使用新退化模型生成的更多訓練數據(即,Eqn。(3)造成所謂的盲SISR。然而,這種方法的性能會嚴重惡化,尤其是考慮到大的複雜模糊核時,這可能是因爲模糊的失真會進一步加劇像素平均問題[34]。對於DPSR,它以blur內核作爲輸入,通過Eqn(9)可以有效地處理blur的失真。
  3. Extended SRMD or DPSR with end-to-end training.

受SRMD的啓發[65],人們可以嘗試通過考慮任意模糊內核來擴展它。但是,很難對足夠多的模糊內核進行採樣,以覆蓋較大的內核空間。此外,訓練一個可靠的模型需要大量的時間。相比之下,DPSR只需要對模型進行雙三次退化的訓練,訓練時間大大縮短。此外,SRMD雖然可以有效地處理具有多個連續卷積層的15×15大小的簡單高斯核,但對於處理較大的複雜模糊核就失去了有效性。相反,DPSR通過Eqn(9)採用了FFT更加簡潔和專業的模塊來消除模糊的失真。或者,可以利用DPSR的結構優勢,以端到端方式聯合培訓DPSR。然而,我們把這留給我們未來的工作。

從上面的討論中,我們可以得出結論,我們的DPSR原則良好,結構簡單,可解釋性強,並且較少涉及培訓。

4.Experiments

4.1.Synthetic LR images

根據大多數圖像恢復文獻中常見的設置,我們使用具有真值的合成數據對所提出的DPSR進行定量分析,並與其他競爭方法進行了比較。

Blur kernel。爲了全面評估提議的任意模糊內核的有效性,我們有三種廣泛使用的模糊內核類型,包括高斯模糊內核、運動模糊內核和磁盤(失焦)模糊內核[12,59]。blur內核的規格如表1所示。一些內核示例如圖1所示。注意,內核大小範圍從5×5到35×35。如表2所示,我們進一步考慮了對於比例因子爲3時的兩種不同噪聲水平的高斯噪聲,即2.55(1%)及7.65(3%)。

參數設置。在Eqn(7)和Eqn(8)的交替迭代中,我們需要設置λ和優化來獲得一個令人滿意的性能。設置這些參數被認爲是一項重要的任務[46]。但是,使用以下兩個原則,DPSR的參數設置通常很容易。首先,由於λ是固定的,可以吸收σ,我們可以用一個標量乘以σ,因此在Eqn(8)忽略λ。

在colorbsd68數據集[39,48,62]上顯示了不同降解設置的不同方法的PSNR和SSIM結果,從中我們得到了一些觀察結果。首先,雖然RCAN在雙三次退化方面大大優於VDSR(見[67]),但在複雜退化設置方面,它的性能可以與VDSR甚至雙三次插值相媲美。這種現象在[51,65]中也有報道。其次,IRCNN經過去模糊處理後,IRCNN+RCAN可以顯著提高PSNR和SSIM值。第三,DeblurGAN+RCAN和GFN導致了較差的性能,這可能是由於在處理大型複雜模糊時,連續矢量/體積/圖層處理失真的能力有限。第四,由於模糊LR圖像的遞歸性,ZSSR對大的複合模糊核的效果較差。最後,我們的DPSR直接優化給定退化的能量函數,能夠有效地處理Eqn(9)的模糊失真,從而達到最佳性能。

Visual results。圖2爲高斯模糊超分辨LR圖像的尺度因子爲4的幾種方法的對比圖。可以看出,由於降解失配,VDSR和RCAN無疑會產生令人不快的結果。DeblurGAN+RCAN生成非常令人不愉快的僞影,與LR圖像相比,並不能減輕模糊程度。GFN的性能不太好,而ZSSR對超分辨非常模糊的LR圖像的效果較差。與DeblurGAN+RCAN、GFNandZSSR相比,IRCNN+RCAN產生了更好的效果,但同時也產生了一些噪聲類僞影,這些僞影可能是由IRCNN引入,然後由RCAN放大。相比之下,我們的DPSR產生的視覺效果最好。

圖3進一步展示了另外兩種模糊內核的視覺對比。可以看出,DPSR始終能夠產生最佳的視覺效果。特別是GFN雖然在一定程度上可以處理運動模糊,但其視覺效果明顯不如IRCNN+RCAN和DPSR。其根本原因是,它無法盲目處理由連續卷積產生的模糊的失真。我們知道其他基於學習的方法(如[54])也存在這樣的問題。

收斂性。由於我們的DPSR是SISR即插即用框架的一個特例,可以參考[10,45]來分析理論收斂性。在本文中,我們僅僅提供了一個經驗證據來證明DPSR的收斂性。在圖像102061上顯示了所提議的DPSR的真實情況,並考慮了不同類型的模糊內核和不同的噪聲水平。在圖5(a)中,我們將噪聲級別固定爲0,併爲每種內核類型選擇第三個內核。在圖5(b)中,我們將模糊核固定在第三個高斯核上,選擇三個不同的噪聲等級,分別爲0、2.55和7.65。可以看出,DPSR收斂速度非常快。

值得指出的是,爲了降低計算成本,我們的DPSR並不一定需要迭代求解雙三次退化,因爲我們採用的超分解器先驗已經針對這種退化進行了端到端的訓練。顯然,這也是現有即插即用SISR的一個優勢。對於其他降級的情況,DPSR的運行時間主要取決於迭代的總數。在單GPU上,DPSR根據不同的比例因子對大小爲256x256的LR圖像進行超分辨大約需要1.8秒。作爲對比,ZSSR在比例因子2、3和4上分別花費了12、14和18秒。實際上,可以調整迭代的總數來平衡性能和速度。

Super-resolver prior with GAN。在上述實驗中,SRResNet+採用 loss訓練。提出這樣一個問題是很自然的:如果對超分解器先驗進行GAN損耗訓練,該方法的性能是否良好?根據[58]的訓練策略,我們通過L1損失、VGG loss and GAN loss的加權組合,訓練出尺度因子4的SRGAN+模型。爲了方便起見,我們採用了SRGAN+作爲DPSRGAN的方法。在這種特殊情況下,我們將DPSRGAN與IRCNN+RCAN以及四種與gan相關的方法,包括ESRGAN[58]、IRCNN+ESRGAN和RCAN+DeblurGAN進行了比較。

圖4爲不同方法的可視化比較。可以看出,直接超分辨模糊的LR圖像並不能提高圖像質量。相比之下,IRCNN+ESRGAN可以提供更好的視覺效果,因爲IRCNN在處理模糊和失真的同時,它放大了IRCNN的擾動誤差,導致令人不快的視覺僞影。雖然DeblurGAN被設計用來處理運動模糊,但是RCAN+DeblurGAN並沒有達到預期的效果。相比之下,我們的dpsrgan生成的視覺上最令人愉快的人力資源圖像的清晰度和自然。

4.2.LR images with estimated kernel

在本節中,我們將重點研究具有估計模糊核的模糊LR圖像的實驗。這些實驗有助於評價新退化模型的可行性、實用性和核敏感性。特別值得注意的是,我們還不知道LR圖像的HR真值。

圖6顯示了與最先進的SISR方法(即, RCAN [67], SRMD[63]和ZSSR[51])對經典圖像芯片[22]、噪聲圖像青蛙[33]和模糊圖像顏色[43]的檢測。對於芯片和顏色,模糊核由[43]估計。對於有噪聲的青蛙,我們假設它沒有模糊,在得到HR圖像之前直接採用我們的超級分解器。注意,一旦對blur內核進行估計,我們的DPSR就可以重建具有不同尺度因子的HR圖像,其中assrmd和ZSSR使用Eqn(1)需要爲每個尺度因子估計一個單獨的模糊核。

從圖6可以看出,由於RCAN的雙三次退化模型過於簡化,其處理模糊和噪聲的能力非常有限。SRMD和ZSSR的降解模型更一般,比RCAN在chip和frog上的降解效果更好。然而,由於圖像的“顏色”是由一個大的複雜核函數模糊的,它們無法恢復潛在的HR圖像。相比之下,我們的DPSR帶來了最令人賞心悅目的視覺效果。因此,我們的新降解模型是一個可行的假設,而DPSR是一個有吸引力的SISR方法,因爲它可以處理多種降解。

5.Conclusion

在本文中,我們提出了一種基於規則的深度即插即用超分辨率方法來處理具有任意模糊核的LR圖像。首先,我們設計了一個可替代的退化模型,該模型有利於現有的用於核估計的盲去模糊方法。然後利用半二次分裂算法求解相應的能量函數,充分利用即插即用框架的優點。事實證明,我們可以很明顯地處理模糊模塊化的失真。這種獨特的優點實際上使所提出的方法能夠處理任意模糊內核。結果表明,我們可以在即插即用框架中插入超級解析器先驗,而不是去噪先驗。因此,我們可以充分利用現有的基於神經網絡的SISR方法的優勢,預先設計和訓練超分解器。大量的實驗結果證明了新退化模型的可行性,以及該方法對任意模糊核的超分辨問題的有效性。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章