Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural

Real-Time Single Image and Video Super-Resolution Using an Efficient
Sub-Pixel Convolutional Neural Network

摘要

  近來,基於深層神經網絡的幾種模型在單像超分辨率的重構精度和計算性能方面取得了巨大的成功。在這些方法中,低分辨率(LR)輸入圖像在重建之前使用單個濾波器(通常是雙三次插值)被放大到高分辨率(HR)空間。這意味着在HR空間中執行超分辨率(SR)操作。我們證明這是次優的,增加了計算複雜度。在本文中,我們提出了第一個能夠實現1080p視頻實時SR的卷積神經網絡(CNN)K2 GPU。爲了實現這一點,我們提出了一種新穎的CNN架構,其中在LR空間中提取特徵圖。另外,我們引入了一個有效的子像素卷積層,該層學習了一個升序濾波器陣列,將最終的LR特徵圖升級到HR輸出。通過這樣做,我們有效地更換SR管道中的手工雙三次插值濾波器,併爲每個特徵圖進行了專門訓練的更復雜的升頻濾波器,同時還降低了整個SR操作的計算複雜度。

介紹

  全局SR問題假設LR數據是HR數據的低通濾波(模糊),下采樣和噪聲版本。 由於在不可逆低通濾波和子採樣期間發生的高頻信息的丟失,這是一個高度ill-posed的問題。 此外,SR操作實際上是從LRHR空間的一對多映射,其可以具有多個解決方案,其中確定正確的解決方案是不容易的。 基於許多SR技術的一個關鍵假設是大部分高頻數據是冗餘的,因此可以從低頻分量精確地重構。因此,SR是一個推理問題,因此依賴於圖像的統計信息。
  許多方法假定多個圖像可看作具有不同視角的相同場景的LR實例,即具有獨特的先前仿射變換。這些可以被分類爲多圖像SR方法,並且通過基於附加信息來限制ill-posed問題並嘗試反轉下采樣過程的方式來利用顯式冗餘信息。然而,這些方法通常需要計算複雜的圖像配準和融合階段,其準確性直接影響結果的質量。另一個方法是單圖像超分辨率(SISR)技術。這些技術尋求學習自然數據中存在的隱性冗餘,以從單個LR實例中恢復丟失的HR信息。這通常以圖像的局部空間相關性和視頻中的附加時間相關性的形式出現。在這種情況下,需要以重建約束的形式的先驗信息來限制重構的解空間。

貢獻
  

   

         ESPCN的核心概念是亞像素卷積層(sub-pixel convolutional layer)。如上圖所示,網絡的輸入是原始低分辨率圖像,通過兩個卷積層以後,得到的特徵圖像大小與輸入圖像一樣,但是特徵通道爲r^2r是圖像的目標放大倍數)。將每個像素的r^2個通道重新排列成一個r x r的區域,對應於高分辨率圖像中的一個r x r大小的子塊,從而大小爲r^2 x H x W的特徵圖像被重新排列成1 x rH x rW大小的高分辨率圖像。這個變換雖然被稱作sub-pixel convolution, 但實際上並沒有卷積操作。通過使用sub-pixel convolution, 圖像從低分辨率到高分辨率放大的過程,插值函數被隱含地包含在前面的卷積層中,可以自動學習到。只在最後一層對圖像大小做變換,前面的卷積運算由於在低分辨率圖像上進行,因此效率會較高。

方法

 SISR的任務是從相應的原始HR圖像下采樣後的LR圖像中估計出HR圖像。下采樣操作是確定性和已知的:爲了從高分辨率圖像中產生低分辨率圖像,我們首先使用高斯濾波器對高分辨率圖像進行卷積操作,然後以r爲單位對圖像進行下采樣。我們將把r稱爲升序比例。通常,HRLR都可以具有C色通道,因此它們分別表示爲大小爲H×W×CrH×rW×C的實數張量。
 網絡輸出層才進行上採樣的框架,與在輸入層利用bicubic上採樣的SRCNN相比,在訓練和測試時都降低了複雜度。測試時,進入卷積的圖像比SRCNN方法小r×r個尺度,r爲上採樣尺度,所以速度快r×r,這是因爲大部分時間花銷都在輸出層之前的卷積上。訓練時,可以將輸入的訓練數據,預處理成shuffling操作前的格式,比如將21×21的單通道圖,預處理成9個通道,7×7的圖,這樣在訓練時,就不需要shuffling操作。另外值得一提的是,該文采用tanh替代了relu

參考

https://zhuanlan.zhihu.com/p/25532538?utm_source=tuicool&utm_medium=referral



  
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章