東南大學EGVSR: 基於GAN的實時超分系統 | 太驚豔!

點擊下方AI算法與圖像處理”,一起進步!

重磅乾貨,第一時間送達

來源:新智元  arXiv 編輯:Priscilla

【導讀】東南大學研究團隊最新提出的4K實時處理超分辨率系統(EGVSR)不僅能夠修復高糊畫質,運行速度還比TecoGAN快9倍,代碼已開源。


代碼:https://github.com/Thmen/EGVSR


有沒有試過辛辛苦苦拍了個視頻,最後一看,竟然「真·一塌糊塗」?
 
問題不大!AI修復能力槓槓的!
 
而現在,一個能實時重建視頻質量,處理速度還比主流方法快9倍的系統就擺在你眼前!
 
高糊視頻有救啦!
 
 
沒錯!這就是東南大學研究團隊最新提出的EGVSR——4K實時處理超分辨率系統!
 
 
兼顧圖像質量和速度性能 ,EGVSR究竟是怎麼做到的呢? 


什麼是VSR?


視頻超分辨率(VSR)是從圖像超分辨率發展而來的,是計算機視覺領域的熱門話題之一。

VSR技術可以重構視頻,還原視頻清晰度,提升主觀視覺質量。
 
目前,我們常說的4K、8K這些高分辨率顯示技術其實已經相對成熟,但無奈主流的視頻源仍以1080P或720P爲主,從源端就已經限制了視頻系統的質量。
 
然而,在不久的將來,4K甚至更高的分辨率一定會取代全高清(FHD)成爲主流格式。
 
因此,我們就需要有高效、輕量級的 VSR 技術,將大量低分辨率 (LR) 視頻升級爲高分辨率 (HR) 視頻。
 
就像上面提到的,VSR技術的研究對象是視頻資源的圖像序列。
 
而圖像序列就是連續的幀,由一系列靜態圖像組成。
 
當視頻中的物體運動速度較快,在單個圖像中表現爲運動模糊效果,因此目標幀與其相鄰幀之間會出現子像素位移。
 
 
因此,VSR系統使用有效的運動補償算法對齊相鄰幀至關重要。
 
這也是當前VSR研究領域其中一個 「老大難」
 
此外,大規模VSR的計算十分複雜,內存消耗也大,嚴重阻礙了視頻處理的實時性和低延遲性,難以在實際應用中部署。
 
爲了解決這些問題,東南大學研究團隊就爲大規模VSR定製了各種網絡加速策略,利用GAN來保證視頻的重建質量,提出4K實時處理超分辨率系統(EGVSR)。


GAN:重建視頻質量的工具

 
由於生成對抗網絡(GAN)能夠產生更好的感知質量,因此也廣泛應用於超分辨率領域。
 
研究人員利用GAN強大的深度特徵學習能力,來應對VSR任務中大規模的分辨率退化。
 
此外,參考TecoGAN方法的設計,引入了空間-時間對抗結構,能夠讓判別器理解學習時空信息的分佈,從而避免傳統GAN遇到的時域不穩定效應。
 
研究人員參考高效CNN搭建架構,設計出了一個更通用,質量更高的視頻超分辨率網絡,也就是EGVSR,這樣就能滿足高達4K分辨率的超分辨率大規模視頻的需求。
 
EGVSR這個輕量級的網絡結構,生成器部分分爲FNet和SRNet,分別用於光流估計和視頻幀超分辨率。
 
EGVSR生成器部分的框架和推理階段的數據流
 
爲設計出更加簡化的EGVSR,研究團隊提出了以下幾種神經網絡的加速技術。
 

快點,再快點!


批量歸一化融合
 
批量歸一化(BN)是深度學習領域中最常用的一種技術,它能夠提高網絡的泛化能力,防止過擬合。
 
因此,EGVSR中的FNet模塊大量使用了BN層。
 
團隊用1×1的卷積層來實現和替換BN層,再將1×1的卷積層與之前的卷積層融合,省去了BN層的計算,得到優化的BN融合層提速了5%左右。
 
 
高效的上採樣方法
 
在超分辨率網絡中,上採樣層(Upsampling layer)是最重要的部分之一。
 
根據技術路線的不同,大致可以分爲兩類:基於插值的上採樣方法(interpolation-based upsampling methods)和基於學習的上採樣方法(learning-based upsampling methods)。
 
由於所有基於插值的上採樣方法都會導致圖像邊緣模糊,而基於學習的上採樣方法則具有強大的特徵學習能力,團隊選擇了後者,具體方法包括:A)調整大小卷積(Resize Convolution);B)去卷積(Deconvolution);C)子像素卷積(Sub-pixel convolution)。
 
研究團隊將ESPCN網絡作爲超分辨率網絡的骨幹,只改變上採樣層,用上述提到的三種上採樣方法訓練了多組SRNet,結果顯示,子像素卷積方法得出的效果最佳。
 

提高計算效率 

卷積計算是CNN的關鍵,佔總計算量的90%以上,耗費了大量的計算時間。
 
而傳統的樸素卷積(naïve convolution)使用了6個循環結構,計算效率也是相當低。
 
因此,爲了提高計算效率,團隊使用矩陣乘法(MatMul)算法進行改進。
 
經過實驗,研究團隊發現,通過逆向col2im轉換就可以得到所需的輸出特徵結果。
 
也就是說,將卷積計算轉化爲矩陣乘法,通過內存空間節省推理時間,就能提高計算效率。
 

實驗結果

 

一頓操作猛如虎,最終運行速度如何呢?
 
來對比一下不同VSR網絡在CPU和GPU上的運行速度:
 
 
由圖可見,相比TecoGAN,僅使用CPU,EGVSR能提速8.25-9.05倍。
 
而在GPU的加速下,EGVSR的4K實時處理速度比TecoGAN高出7.92倍。
 
當然,不能只求快,還是要看看總的計算成本。
 
EGVSR總計算成本僅爲VESPCN的29.57%,SOFVSR12.63%,FRVSR和TecoGAN的14.96%。
 
 
速度有了提高,計算成本也大大減少,那最重要的畫質,是不是真的變高清了呢?
 
 
研究人員在VID4、TOS3和GVT72三個數據集上進行了測試實驗。
 
實驗數據顯示,EGVSR的確比傳統模型的性能更好,能夠修復更多空間細節,視頻看起來更加高清。
 
分數越低,越接近真實結果,畫面就越流暢
 
團隊在VSR領域中,提出了EGVSR方法,採用了各種優化技術,在保證提高視覺質量的前提下,將計算量降至最低,在硬件平臺上,4K VSR得以實時實現。


作者介紹

 
 
研究團隊共5人,Yanpeng Cao、Chengcheng Wang、Changjun Song和Yongming Tang均來自南京的東南大學的信息顯示與可視化國際合作聯合實驗室。
 
其中一作Yanpeng Cao是東南大學在讀研究生,研究領域爲加密域圖像處理和圖像超分辨率等。
 
He Li則來自英國劍橋大學工程學院。


參考資料:

https://arxiv.org/abs/2107.05307


努力分享優質的計算機視覺相關內容,歡迎關注:

  
     
     
     
個人微信(如果沒有備註不拉羣!
請註明: 地區+學校/企業+研究方向+暱稱



下載1:何愷明頂會分享


AI算法與圖像處理」公衆號後臺回覆:何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經典工作的總結分析


下載2:終身受益的編程指南:Google編程風格指南


AI算法與圖像處理」公衆號後臺回覆:c++,即可下載。歷經十年考驗,最權威的編程規範!




   
   
   
下載3 CVPR2021

AI算法與圖像處公衆號後臺回覆: CVPR 即可下載1467篇CVPR 2020論文 和 CVPR 2021 最新論文

點亮 ,告訴大家你也在看



本文分享自微信公衆號 - AI算法與圖像處理(AI_study)。
如有侵權,請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章