放大的藝術 | 基於深度學習的單圖超分辨

原文鏈接:https://cloud.tencent.com/developer/article/1492862

本文爲 AI 研習社社區用戶 @月本誠 獨家投稿內容,歡迎掃描底部社區名片訪問 @月本誠 的主頁,查看更多動態。

閱讀提示:本文約12800字/58圖,建議閱讀時間:37分鐘。

放大的藝術 | 基於深度學習的單圖超分辨

“放大的藝術 —— 細節決定成敗”

超分辨(Super-Resolution)是一種用來提升圖像或視頻分辨率的技術,它能利用低清圖像生成儘可能自然、逼真的高清圖像。超分辨技術可用來解決圖像增強、視頻傳輸等問題,具有廣闊的應用前景。超分辨技術可大致分爲 a)基於插值的方法 b)基於重構的方法 c)基於學習的方法。其中基於監督式深度學習的超分辨方法是目前學習法中效果最好的一類,本文主要介紹這類方法近年來的主要進展,對一些代表性的方法進行說明和總結,以讓讀者有一個整體的認識。

一、定義超分辨問題

  • 監督式超分辨

我們將超分辨看做一個監督學習問題,並將其表示爲從低清圖像到高清圖像的映射,即:

其中

分別表示低清圖像與超分圖像,

表示超分模型,

爲模型中的參數。

圖1. 超分辨模型即爲低清圖像到圖像的映射

模型的學習目標是最小化超分圖像與高清圖像

的誤差,即:

其中

爲損失函數,

爲正則項,

爲懲罰係數。由於固有的信息缺失,低清圖像對應的高清圖像不唯一,所以往往用先驗或正則項對模型參數加以約束。

  • 降級模型

要訓練監督式超分辨模型的第一個問題是:如何獲得“低清-高清”樣本對?事實上,我們只能通過將任意一張圖片當做高清圖像然後將其縮小成低清圖像的方式製作訓練樣本對,而反過來就無法做到,因爲任意一張圖片對應的“真實”高清圖像是未知的(比如手機拍照得到的“普清”圖片不存在“真實”的高清圖像)。爲此,我們必須先通過某種方式生成低清圖像,生成低清圖像的過程在超分辨的研究文獻中被稱爲降級(Degradation),可用如下公式表示:

其中

表示降級映射,

爲模型中的參數。將上式代入超分辨模型,可得:

可以發現,其實超分就是是降級的反過程,當超分圖像

越來越接近高清圖像

時,超分模型就會越來越接近降級模型的反函數。所以說,有什麼樣的降級模型假設,就會習得什麼樣的超分模型,降級模型的假設越貼近真實場景,習得的超分模型的效果就越好。

然而實際問題中的降級過程是非常複雜的,它會受散焦、壓縮失真、傳感器噪聲、噪點等諸多因素的影響。現有降級模型假設有兩種,第一種模型將降級過程簡單的描述成下采樣:

式中的

表示下采樣操作,

表示下采樣的倍數,爲了簡化問題,大多數超分模型都採用了這樣的假設。而另一種模型更加複雜,它將模糊與噪聲納入考慮:

其中

表示卷積,

爲卷積核,

爲加性噪聲,該模型假設低清圖像由高清圖像經過加模糊(用卷積來建模表示)、下采樣和加噪(假設爲加性噪聲)操作後得出,這種假設更具廣泛性,也更貼近實際情況。

圖2. 考慮模糊與噪聲的降級模型

二、如何評價超分圖像的質量

超分辨的目的是生成與高清圖像儘可能相同的圖像,所以如何評價超分圖像與高清圖像的相似度是一個至關重要的問題。這裏筆者列出最常用的三種評價方法,包括兩種客觀的評價方法和一種人爲的主觀評價方法。客觀量化指標可以根據數據自動計算,但它不一定能較好的反映圖像視覺質量;人爲的主觀評分會有一些統計偏差的問題,但是在志願者數量足夠的情況下能夠更好的反映圖像視覺質量。

  • 峯值信噪比

峯值信噪比PSNR(Peek Signal-to-Noise Ratio)是評價圖像重構質量的常用指標之一,廣泛應用於圖像壓縮、圖像修復等任務。在超分辨場景下,PSNR(單位爲dB)可由像素點取值範圍的上界值

和圖像間的MSE誤差表示,即:

其中

表示高清圖像的第

個像素,

爲像素點的總數。以灰度圖爲例,像素值由一個字節即8位二進制表示,其最高取值爲

,此時PSNR值一般在20dB到40dB之間浮動。可以發現,當

固定時PSNR指標是關於MSE誤差的固定函數,它衡量的只是兩個圖像之間的平均像素誤差,無法有效的反映圖像之間的感知差異(即看起來是否足夠真實),這降低了它在實際應用中的參考價值。但即使如此,由於目前還沒有更好的視覺感知質量度量方法,PSNR指標依然是超分辨領域內使用最頻繁的評價指標。

  • 結構相似度

受啓發於人類視覺系統善於捕獲結構信息的特點,研究者們提出了結構相似度指數SSIM(Structure Similarity Index)。SSIM通過計算兩個圖像在亮度、對比度和結構三個方面的相似度綜合得出整體的相似度。其中,圖像的亮度和對比度分別由像素點亮度的均值和方差表示,它們的相似度計算方式相同。圖像的結構由歸一化的像素點

的集合表示,圖像間的結構相似度則通過內積計算。SSIM中各項指標的計算公式如下:

圖3. SSIM指標計算的相關公式

公式中的

是爲了防止數值計算不穩定而添加的常數,在理解相似度度量原理時可先忽略。最終的SSIM指標由三個子項相似度做冪積得出,其中的

均爲超參數,一般情況通通取1,此時便得出了SSIM最常用的計算公式。SSIM在一定程度上反映了圖像的視覺質量,更符合圖像質量評估的需求,因此在超分辨模型中得到了廣泛的應用。

  • 意見平均分

意見平均分MOS(Mean Opinion Score)是超分領域最常見的主觀評價方法,其實就是我們常見的評分機制。該方法要求志願者爲模型生成的超分圖像的質量打分(比如從1分到5分),並將所有志願者分數的算數平均分作爲一個模型最終評分。評分機制有一些固有的問題,比如每個人的鑑別能力、評價標準都不一樣,不同人給同樣一張圖片打出的分數也很有可能不同。然而對研究人員來說,在評分人數足夠的情況下,它確實是一個可信的方法,甚至是最好的辦法。因爲這個評分並不像電影評分這種事情那麼隨意和主觀(摻雜着個人喜好與審美),不是大街上隨便找幾個人就能評的,如果評分的志願者認真參與的話,我認爲這種方法是足夠可信的。

三、超分辨網絡結構設計

自從2014年湯曉鷗團隊發表第一篇使用CNN進行超分辨的文章以來,基於深度學習的超分辨方法開始井噴式發展,新模型層出不窮。以下我們先對各種網絡進行簡單的分類,然後介紹超分辨網絡中的核心組件:上採樣操作,最後介紹幾個具有代表性的模型,通過簡析它們的架構設計理念與設計技巧,展示主流超分辨網絡的演進過程。

  • 超分辨網絡分類

上採樣是超分辨方法中的核心操作,雖然各種超分辨模型的架構差異很大,但是可以根據上採樣策略將它們歸爲以下4類:

圖4. 超分辨網絡的4種類型

預上採樣模型在一開始就使用固定的上採樣操作將低清圖像放大至目標尺寸,然後將其輸入網絡學習模糊圖像到清晰圖像的映射。將上採樣變成一個固定的數據預處理操作的好處是網絡本身無需考慮輸入輸出尺寸不匹配的問題,簡化了建模過程,並且習得的模型可用於任意倍數的超分辨(上採樣操作固定)。但缺點是所有的計算都在高維空間中進行,增加了網絡的計算複雜度,並且固定的上採樣過程本身也會產生一些虛假紋理,從而干擾網絡的學習。

在後上採樣模型中,上採樣層被置於網絡末端用來產生輸出圖像,並帶有可學習參數。這樣做不僅可以讓網絡能夠自適應的學習上採樣過程,還能讓特徵提取過程在低維空間上進行,極大的降低計算負擔。然而,當超分辨的上採樣倍數較大時,過多的信息缺失可能會使單個上採樣層不堪重負,學習難度快速升高。此外,由於上採樣操作不固定,所以這種方法不能適應不同的放大倍數,要爲每一種放大倍數重新訓練一次模型,很不方便。

逐步上採樣模型通過多次上採樣逐步獲得目標尺寸的超分辨圖像,這種設計不僅能降低學習難度,還能從一定程度上兼容不同的放大倍數。此外,這種多階段學習的網絡結構設計可以結合一些特定的學習方法(諸如課程學習、多監督學習)進一步降低學習難度。但即使如此,由於架構的複雜性,此類模型的訓練難度依然較高。

交替式上下采樣模型是一種較新出現的設計架構,它能夠挖掘低清圖像與高清圖像之間的相互依賴關係,實驗證明這樣的設計確實能夠得到更好的超分效果,但是它的上/下采樣層的結構非常複雜,設計準則尚不明確,還需要進一步的研究和探索。

  • 上採樣方法

上採樣是超分辨網絡設計中的關鍵一環,主要分爲基於插值的方法和基於學習的方法。常用的插值法有以下三種:

  1. 最近鄰插值 (Nearest Neibor): 使用中心像素塊填充滿插值空隙
  2. 雙線性插值 (Bilinear): 在橫豎兩個方向上進行線性插值
  3. 雙三次插值 (Bicubic): 在橫豎兩個方向上進行三次插值

其中雙向插值的過程如下圖所示,:

圖5. 雙向插值的過程

圖中的藍點表示原始像素,黃點由橫向插值生成,綠點由縱向插值生成。插值時先進行橫向插值再進行縱向插值,雙線性插值和雙三次插值的過程均如此,只是使用的插值函數不同。

基於插值的上採樣方法是一個固定運算,而基於學習的上採樣方法將使用帶權重的網絡層來學習上採樣過程。當今應用最廣泛的兩種上採樣層爲反捲積層(Deconvolution Layer)和亞像素層(Sub-Pixel Layer),它們的運算過程如下圖所示:

圖6. 兩種上採樣層的區別

反捲積層與普通卷積相比只是多了像素擴展的步驟,在原始像素周圍填充足夠數量的0可以保證卷積得到的特徵圖的尺寸符合放大倍數要求。反捲積層由於其餘原始卷積的兼容性而被廣泛應用,但反捲積層具有“非均勻重疊效應”,這會導致生成圖像帶有典型的棋盤紋理,使生成效果變差。

亞像素層使用多個卷積核直接在原始圖像上(帶padding)做卷積,然後將得到的多個特徵圖進行重排列合成出一張更大的圖像,這要求特徵圖的數量必須是放大倍數的平方。可以發現,亞像素層輸出特徵圖的最大有效感受野爲9,信息利用率比反捲積層更高(最大感受野爲4)。但一個重構塊(灰色虛線標識的塊)內的所有像素共享相同的感受域,這可能會導致各塊的邊界處產生不自然的紋理。

  • 經典模型介紹

有了以上這些充足的知識準備,我們便可以較爲容易地理解一衆超分辨模型了。現如今,除了數量最多的單幀超分辨(單張低清圖像輸入)模型外,還出現了多幀超分辨(多張低清圖像輸入)和帶參考圖像的超分辨(額外輸入內容相關的高清圖像)模型。這兩類新模型也非常有趣,但本文的重點是單幀超分辨模型,對其他模型感興趣的讀者可以閱讀文末的相關文獻進行深入瞭解。下表整理列出了本章要介紹的所有模型,讀者可按需閱讀。

表1. 十個經典的超分辨網絡

第一階段:單鏈路淺層網絡

SRCNN

SRCNN是深度學習超分辨的開山之作,發表於2014年,此時AlexNet問世才2年,Tensorflow也還沒有發佈,深度學習的發展遠不如現在這麼繁榮。作者將超分過程抽象爲1) 圖像塊抽取與表徵 2) 非線性映射 3) 重構 三個步驟,每個步驟都可以用卷積來表示,從而組成了簡潔的三層卷積結構。網絡使用插值後的低清圖像作爲輸入,第一個卷積層密集地抽取9x9的低清圖像塊(patch)並將每一個圖像塊表示成64維的特徵向量,即低清表徵;第二個卷積層利用一組(5x5個)低清特徵向量生成一個高清像素的特徵向量(32維),即完成低清表徵到高清表徵的非線性映射;第三個卷積層使用一組(5x5個)高清特徵向量重構出一個高清像素,即利用特徵重構圖像。值得注意的是,爲了避免邊際效應,SRCNN中的卷積沒有使用Padding,導致最後生成的圖像尺寸變小, 所以在評估性能時只使用了高清圖像的中心部分。

圖7. SRCNN結構圖

SRCNN的設計初衷並不是簡單的套用CNN,而是歸納整合先前的超分辨研究成果。作者在原文中揭示了基於稀疏表示的超分辨方法與SRCNN的內在聯繫,並表示前者可以被解釋爲一種特定的卷積網絡,這充分印證了CNN應用於超分辨任務的合理性與靈活性。

FSRCNN

FSRCNN(Faster SRCNN)和SRCNN的都出自湯曉鷗團隊,它延用了SRCNN的三步超分步驟,但是對各個環節做了優化,如下圖:

圖8. FSRCNN結構圖

首先FSRCNN採用後上採樣策略並使用反捲積層重構圖像,這使特徵提取與非線性映射在原始的低清圖像上進行,降低了計算複雜度。其次,FSRNN將非線性映射擴展成“收縮-映射-擴張”三步,在映射前使用1x1的卷積進行收縮降維,在映射後再通過多個1x1卷積核擴張維度,目的是降低映射過程的參數量與複雜度。第三,FSRCNN使用多個小尺寸卷積替代原來的單層大尺寸卷積,在提高感受野同時也降低了計算複雜度(兩個3x3卷積與一個5x5卷積的感受野大小相同但是總參數量更小)。這一系列改進優化使FSRCNN不僅獲得了40倍的速度提升,還能生成質量更高的圖片。

ESPCN

前文介紹的亞像素卷積層正是在ESPCN(Efficient Sub-Pixel Convolution Network)模型中首次提出,該網絡由兩個普通卷積層和一個亞像素卷積層組成,其結構如下。

圖9. ESPCN結構圖

相比SRCNN,ESPCN不僅速度快而且效果更好,這得益於亞像素卷積層和後上採樣策略。

第二階段:多鏈路深層網絡

2015年,何愷明等人提出的殘差網絡ResNet在解決深層網絡難以訓練的問題上大獲成功,ResNet包攬了2015年ImageNet三項視覺識別競賽的冠軍,並摘得CVPR2016最佳論文獎,對後續研究產生了重大影響。此後的網絡設計越來越多的利用殘差學習使網絡加深。本小節介紹的網絡不只有一條前向的反饋鏈路,並且它們比之前的網絡更深,筆者此處將這兩個特性綜合起來稱之爲多鏈路深層網絡。

VDSR

VDSR(Very Deep Super Resolution Network)指出低清圖像與高清圖像相似度高,直接學習兩者間的映射會引入大量的冗餘計算,其實低清圖像與高清圖像的主要差別在於高頻部分,所以只需學習二者之間的高頻殘差即可,這就自然的引入了殘差學習。VDSR的網絡結構如下所示:

圖10. VDSR結構圖

網絡用深達20層的卷積網絡學習插值後的低清圖像與高清圖像之間的殘差,並在最後一層將殘差與低清圖像相加得到輸出。爲了保證圖像的大小始終與高清圖像保持一致,每個卷積層都使用了等大小填充(Same Padding)。雖然SRCNN的作者聲稱像素填充可能會導致邊際效應,但在VDSR的驗證實驗中像素填充表現很好。此外,VDSR在訓練時爲同一高清圖像準備了不同縮放倍率的低清圖像,並發現這種訓練方式學出的VDSR模型具備了多倍率超分辨的能力,其多倍率超分效果比固定倍率訓練得出的SRCNN模型的效果還要好,如圖所示(上側是VDSR的超分結果,下側是不同縮放級別SRCNN的超分結果):

圖11. VDSR多級超分辨效果與SRCNN對比

DRCN

DRCN(Deep Recursive Convolutional Network)與VDSR同年發表,它們都是首爾國立大學計算機視覺實驗室的工作,二者的性能表現也十分相近。DRCN分爲嵌入部分、推斷部分以及重構部分,與SRCNN的三個步驟對應,如下圖所示。

圖12. DRCN網絡結構

嵌入部分的作用是從低清圖像抽取特徵。推斷部分與SRCNN中的非線性映射部分等價,它是一個遞歸的卷積網絡結構。而重構部分則將利用輸入圖像與每一次遞歸的輸出特徵圖重構出高分辨圖像。網絡的展開形式如下:

圖13. 展開後的DRCN網絡

其中遞歸部分相當於卷積核共享的多層卷積網絡,遞歸多少次意味着將相同的卷積運算重複多少次(圖中爲D次),它的重點在於每次遞歸時使用的卷積核相同。作者在分析前人的研究工作時發現,訓練好的超分辨網絡中多個非線性映射層之間的卷積核十分相似,這個現象使它們產生了在每一步非線性映射中使用相同卷積核的想法,並使用遞歸結構來實現。這樣的遞歸結構設計使網絡在保持足夠深度的同時減少了大量參數。在重構部分中,網絡先將低清圖像與各級遞歸輸出相加得到不同遞歸級別的重構圖像,然後對各級重構圖像進行加權平均得到最終的輸出。由於遞歸網絡的學習難度較大,作者專門設計了遞歸監督(Recursive-Supervision)式的損失函數避免訓練中的梯度消失/爆炸問題。 總的來說,DRCN利用深層遞歸網絡學習低清圖像與高清圖像間的殘差,然後將低清圖像與各級殘差相加得到各級重構結果,最後對各級重構結果進行加權得到目標圖像。

DRRN

沿着殘差學習和遞歸學習的成功道路,DRRN進一步玩出了殘差學習與遞歸學習的新花樣,它與上文提到的幾種模型的對比如下:

圖14. DRRN與其它模型的結構對比

圖(a)是ResNet的簡化網絡結構,它的殘差結構是局部的,綠色虛線框表示殘差單元。圖(b)是VDSR的網絡結構,紫色的線表示全局跳躍連接,它的殘差結構是全局的。圖(c)是DRCN的網絡結構,藍色虛線框表示遞歸塊,同爲綠色的卷積塊間的參數共享,它是全局殘差+遞歸+加權集成的結構。圖(d)是DRRN的網絡結構,紅色的虛線框表示遞歸塊,顏色相同的卷積層共享參數,它是多路徑局部殘差+全局殘差+遞歸的結構。簡單來說,DRRN是對前人的網絡架構進行了有機結合,它達到了52層的深度,用更少的參數實現了更好的性能。

SRDenseNet

竊以爲,ResNet的跳躍連接設計的成功促進了研究者們對於網絡連接方式多樣性的探索。以稠密連接爲特色的DenseNet斬獲了2017年CVPR最佳論文,DenseNet的稠密塊(dense block)中各層的特徵都會輸入到後續的所有層,將所有層的特徵都拼接(concatenate)起來,而不是像ResNet那樣直接相加。這種結構能加強特徵傳播並緩解梯度消失/爆炸問題,同時特徵在所有層的複用能夠有效減少參數量。SRDenseNet將稠密連接應用到了超分辨率網絡上,取得了不錯的效果,其網絡結構如下圖:

圖15. SRDenseNet的三種結構

SRDenseNet採用後上採樣策略,前向傳播過程分爲4步:第1步使用一個卷積層提取低層特徵;第2步使用多個稠密學習高層特徵;第3步使用反捲積層進行上採樣;第4步使用一個卷積層重構高清圖像。根據上採樣輸入特徵的不同,作者設計了圖中的(a)、(b)、(c)3種結構,從上到下輸入反捲積層的特徵越來越多。(b)中多添加了從第一個卷積層到反捲積層的跳躍連接,將最底層卷積的輸出特徵與最頂層稠密塊的輸出特徵拼接起來,再輸入反捲積層。(c)中添加了稠密跳躍連接,將第一個卷積層的輸出和每個稠密塊的輸出都輸入之後的所有稠密塊,使得反捲積層之前的所有層的連接都稠密化。這種設計使反捲積層輸入的特徵數量巨大,計算開銷飆升,爲此作者在反捲積層之間添加了一個1×1的卷積層來降低特徵數量,稱之爲瓶頸層。實驗結果表明網絡“越稠密”越好,即(c)>(b)>(a),這充分表明不同級別特徵的組合有利於超分辨率重建性能的提升。

LapSRN

大倍率(比如8倍)的超分辨在SISR領域內一直是個極具挑戰性的問題,圖像重構的難度因爲細節信息的嚴重缺失而加大。爲了解決這個問題,LapSRN(Laplacian Pyramid Super Resolution Network)採用逐步上採樣策略進行超分辨。拉普拉斯金字塔是2008年提出的一種圖像表徵方法,LapSR的架構設計與拉普拉斯金字塔的圖像融合過程十分相像,如下圖

圖16. LapSRN的網絡結構

圖中的紅色箭頭表示卷積運算,藍色箭頭表示反捲積運算,綠色箭頭表示逐元素加法運算。LapSRN網絡由特徵提取分支和圖像重構分支組成,前者負責學習高頻殘差,後者負責重構圖像。兩個分支都採用逐步上採樣的結構,每次上採樣的倍率都爲2,每一級都通過將上採樣後的低清圖像與高頻殘差相加進行圖像重構。由於尺寸放大是漸進式的,不是所有的操作都在大尺寸特徵上進行,因此速度比較快。作者結合多級監督與Charbonnier懲罰函數(L1範數的變形)爲LapSRN設計了有效的訓練方案,取得了較爲理想的效果。此外,由於LapSRN是逐級放大的,所以可以提取大倍率模型的中間重構結果作爲小倍率的超分圖像,實現多級別超分辨。

SRGAN

SRGAN首次將對抗訓練應用到圖像超分辨,並發現使用對抗訓練生成的圖像更加逼真、自然。具體地、SRGAN由生成器和判別器兩部分組成,其生成器是一個超分辨網絡,作者稱之爲SRResNet,而判別器是一個簡單的二分類網絡,用來判斷生成器生成的圖片是否爲真實高清圖像,如下圖。

圖17. SRGAN的生成器與判別器

其中SRResNet是一個結合局部殘差+全局殘差設計的深度殘差網絡,採用後上採樣策略,圖中的PixelShuffle指的是亞像素卷積層。判別器含有8個卷積層與2個全連接層,每一層的卷積核數量以2的倍數增長。實驗發現,單獨訓練的SRResNet模型生成的圖像具有更高的PSNR,但是視覺效果不如對抗訓練得到的模型。值得注意的是,作者在訓練SRResNet時提出了一種新的基於VGG網絡的內容損失:

其中i和j表示VGG19網絡中第i個最大池化層後的第j個卷積層得到的特徵,

分別表示特徵圖的寬度和高度。其實就是使用預訓練好的VGG網絡提取圖像的特徵,然後計算圖像特徵之間的誤差而不是原始像素點之間的誤差,這種損失能夠更好地衡量圖像之間的結構相似度,更加魯棒。採用對抗訓練時的對抗損失爲:

其中D和G分別代表判別器(Discriminator)和生成器(Generator)。最終的損失函數由內容損失和對抗損失組成,作者將其統稱爲感知損失,即:

其中內容損失(第一項)可以是基於MSE的損失函數,也可以是基於VGG的損失函數。最終的實驗結果表明,基於VGG的損失比基於MSE的損失能夠得到更逼真、自然的紋理細節。SRGAN的成功使對抗損失與VGG損失被廣泛採用,成爲提升超分辨性能的常用技巧。

DBPN

不同於以上所有架構,DBPN(Deep Back Projection Network)強調了從高清圖像到低清圖像映射的重要性,作者認爲“低清->高清”映射與“高清->低清”映射之間是有關聯的,利用這種關聯可以進一步的約束搜索空間,提升超分辨性能。DBPN使用迭代式上下采樣提供超分辨的錯誤反饋機制,網絡使用的投射單元結構如下:

圖18. DBPN中兩種投射單元的結構圖

以上採樣投射單元爲例,如果刪去紅色虛線框的部分,則該單元相當於普通的反捲積層。再來看紅色框部分,該部分將上採樣後的“原始版本”縮小後與低清圖像輸入相減,得到下采樣映射的誤差,然後再將這個誤差放大,並將其與原始上採樣版本相加(進行錯誤修正)得到最終的上採樣結果。可以發現,該單元設計的核心思路就是利用下采樣的誤差修正上採樣結果,確實利用了上下采樣之間的關聯性。下采樣投射單元與上採樣投射單元類似,只是將卷積層與反捲積層反過來用而已,此處不再贅述。DBPN的整體網絡結構如下:

圖19. DBPN網絡結構圖

網絡分爲初始特徵提取、反向投射和重構三部分。爲了防止投射部分的參數量過大,作者在初始特徵提取部分添加了一個1x1卷積來提前減少參數。反向投射部分首先由上採樣投射和下采樣投射交替連接,每一層的輸出都會拼接到後續的所有層(每一個投射單元之前都添加一個1x1的卷積層來減少參數)。最後,重構部分利用所有的上採樣特徵圖生成目標圖像。實驗證明,DBPN在大倍率超分辨問題上是非常有效的,它以優異的8倍超分辨性能斬獲了2018年NTIRE超分辨比賽的冠軍。

性能對比

最後,用一張表格來直觀的感受下以上衆多模型的性能差異。

表2. 各模型在不同數據集/不同縮放倍率下的性能表現

 

四、總結與啓發

超分辨是個十分活躍的研究領域,每年都有數篇頂級論文發佈,本文盤點了18年及之前的經典方法,梳理了超分辨問題研究的發展思路。從方法層面看,超分辨網絡架構的演進離不開深度學習技術的發展。殘差學習、遞歸學習、稠密連接、GAN等深度學習的最新技術都在超分辨問題上得到了應用且卓有成效。網絡架構的發展趨勢是不斷加深,但同時也通過各種手段來控制網絡的參數量。現有的方法已經能夠在8倍以內的超分辨問題上取得不錯的效果。但是,太多的方法只關注提高性能而忽略了對其他重要問題的探索。還有以下幾個重要的問題需要進一步探索和解決:

  1. 設計輕量級的網絡:看起來前沿的超分辨方法在性能上大踏步前進,但是在落地應用上卻步履蹣跚。輕量級架構、低計算複雜度對超分辨落地應用的重要性不言而喻。輕量、高效的超分辨網絡不僅能推動圖像超分辨的應用,還能促進視頻超分辨研究的發展。
  2. 高倍率超分與降級模型兼容:高倍率放大(>=8倍)和降級模型兼容依然是超分辨領域的兩大難題。現有的方法大都採用簡單的下采樣降級假設,沒有考慮模糊核噪聲等複雜的影響因素,離實際應用還有較大的距離。由於信息缺失嚴重,高倍率放大問題難以有效解決。
  3. 關於超分辨網絡的理論解釋: 雖然基於深度學習的超分辨方法取得了很好的效果,但是我們對於它的工作原理知之甚少,對它的解釋只停留在在“表徵學習”的階段。關於這些超分辨網絡學到了什麼樣的表徵,爲什麼這樣的表徵能夠幫助超分辨,還需要進一步的研究,這將有利於後續的研究。
  4. 設計合理、個性化的目標函數: 從前文的表格就可以發現,絕大多數模型都使用MSE誤差,將每個像素點一視同仁。但事實上,不同問題場景下各像素點的重要程度肯定是不一樣的,我們需要爲特定任務定製更加合理的目標函數。對抗損失和VGG損失可以看做是一種嘗試,但是它們的解釋性是大問題。如果能爲超分辨問題提出一系列定義明確、概念契合的指標,會大有裨益。

五、相關文獻

3篇博文:2019年最新進展

  • 超分辨CVPR2019論文大盤點(http://bbs.cvmart.net/topics/452/cvpr-2019-lun-wen-da-pan-dian-chao-fen-bian-lv-pian)
  • CVPR 2019 | 步步爲營!通過迭代式模糊核預測提高超分辨質量(https://ai.yanxishe.com/page/postDetail/13653)
  • CVPR 2019 | 基於多級神經紋理遷移的圖像超分辨方法(https://ai.yanxishe.com/page/postDetail/11551)

2篇綜述:深度學習超分辨

  • Yang W, Zhang X, Tian Y, et al. Deep learning for single image super-resolution: A brief review[J]. IEEE Transactions on Multimedia, 2019.
  • Wang Z, Chen J, Hoi S C H. Deep learning for image super-resolution: A survey[J]. arXiv preprint arXiv:1902.06068, 2019.

10個模型:從SRCNN到DBPN

  • Dong C, Loy C C, He K, et al. Image super-resolution using deep convolutional networks[J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 38(2): 295-307. (SRCNN)
  • Dong C, Loy C C, Tang X. Accelerating the super-resolution convolutional neural network[C]. European conference on computer vision. Springer, Cham, 2016: 391-407. (FSRCNN)
  • Shi W, Caballero J, Huszár F, et al. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network[C]. Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 1874-1883. (ESPCN)
  • Kim J, Kwon Lee J, Mu Lee K. Accurate image super-resolution using very deep convolutional networks[C]. Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 1646-1654. (VDSR)
  • Kim J, Kwon Lee J, Mu Lee K. Deeply-recursive convolutional network for image super-resolution[C]. Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 1637-1645. (DRCN)
  • Tai Y, Yang J, Liu X. Image super-resolution via deep recursive residual network[C]. Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 3147-3155. (DRRN)
  • Lai W S, Huang J B, Ahuja N, et al. Deep laplacian pyramid networks for fast and accurate super-resolution[C]. Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 624-632. (LapSRN)
  • Ledig C, Theis L, Huszár F, et al. Photo-realistic single image super-resolution using a generative adversarial network[C]. Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 4681-4690. (SRGAN)
  • Tong T, Li G, Liu X, et al. Image super-resolution using dense skip connections[C]. Proceedings of the IEEE International Conference on Computer Vision. 2017: 4799-4807. (SRDenseNet)
  • Haris M, Shakhnarovich G, Ukita N. Deep back-projection networks for super-resolution[C]. Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 1664-1673. (DBPN)
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章