點擊下方“AI算法與圖像處理”，一起進步！
重磅乾貨，第一時間送達

來源：新智元 arXiv 編輯：Priscilla

【導讀】東南大學研究團隊最新提出的4K實時處理超分辨率系統（EGVSR)不僅能夠修復高糊畫質，運行速度還比TecoGAN快9倍，代碼已開源。

代碼：https://github.com/Thmen/EGVSR

有沒有試過辛辛苦苦拍了個視頻，最後一看，竟然「真·一塌糊塗」？

問題不大！AI修復能力槓槓的！

而現在，一個能實時重建視頻質量，處理速度還比主流方法快9倍的系統就擺在你眼前！

高糊視頻有救啦！

沒錯！這就是東南大學研究團隊最新提出的EGVSR——4K實時處理超分辨率系統！

兼顧圖像質量和速度性能，EGVSR究竟是怎麼做到的呢？

什麼是VSR？

視頻超分辨率（VSR）是從圖像超分辨率發展而來的，是計算機視覺領域的熱門話題之一。

VSR技術可以重構視頻，還原視頻清晰度，提升主觀視覺質量。

目前，我們常說的4K、8K這些高分辨率顯示技術其實已經相對成熟，但無奈主流的視頻源仍以1080P或720P爲主，從源端就已經限制了視頻系統的質量。

然而，在不久的將來，4K甚至更高的分辨率一定會取代全高清（FHD）成爲主流格式。

因此，我們就需要有高效、輕量級的 VSR 技術，將大量低分辨率 (LR) 視頻升級爲高分辨率 (HR) 視頻。

就像上面提到的，VSR技術的研究對象是視頻資源的圖像序列。

而圖像序列就是連續的幀，由一系列靜態圖像組成。

當視頻中的物體運動速度較快，在單個圖像中表現爲運動模糊效果，因此目標幀與其相鄰幀之間會出現子像素位移。

因此，VSR系統使用有效的運動補償算法對齊相鄰幀至關重要。

這也是當前VSR研究領域其中一個「老大難」。

此外，大規模VSR的計算十分複雜，內存消耗也大，嚴重阻礙了視頻處理的實時性和低延遲性，難以在實際應用中部署。

爲了解決這些問題，東南大學研究團隊就爲大規模VSR定製了各種網絡加速策略，利用GAN來保證視頻的重建質量，提出4K實時處理超分辨率系統（EGVSR）。

GAN：重建視頻質量的工具

由於生成對抗網絡（GAN）能夠產生更好的感知質量，因此也廣泛應用於超分辨率領域。

研究人員利用GAN強大的深度特徵學習能力，來應對VSR任務中大規模的分辨率退化。

此外，參考TecoGAN方法的設計，引入了空間-時間對抗結構，能夠讓判別器理解學習時空信息的分佈，從而避免傳統GAN遇到的時域不穩定效應。

研究人員參考高效CNN搭建架構，設計出了一個更通用，質量更高的視頻超分辨率網絡，也就是EGVSR，這樣就能滿足高達4K分辨率的超分辨率大規模視頻的需求。

EGVSR這個輕量級的網絡結構，生成器部分分爲FNet和SRNet，分別用於光流估計和視頻幀超分辨率。

EGVSR生成器部分的框架和推理階段的數據流

爲設計出更加簡化的EGVSR，研究團隊提出了以下幾種神經網絡的加速技術。

快點，再快點！

批量歸一化融合

批量歸一化（BN）是深度學習領域中最常用的一種技術，它能夠提高網絡的泛化能力，防止過擬合。

因此，EGVSR中的FNet模塊大量使用了BN層。

團隊用1×1的卷積層來實現和替換BN層，再將1×1的卷積層與之前的卷積層融合，省去了BN層的計算，得到優化的BN融合層提速了5%左右。

高效的上採樣方法

在超分辨率網絡中，上採樣層（Upsampling layer）是最重要的部分之一。

根據技術路線的不同，大致可以分爲兩類：基於插值的上採樣方法（interpolation-based upsampling methods）和基於學習的上採樣方法（learning-based upsampling methods）。

由於所有基於插值的上採樣方法都會導致圖像邊緣模糊，而基於學習的上採樣方法則具有強大的特徵學習能力，團隊選擇了後者，具體方法包括：A）調整大小卷積（Resize Convolution）；B）去卷積（Deconvolution）；C）子像素卷積（Sub-pixel convolution）。

研究團隊將ESPCN網絡作爲超分辨率網絡的骨幹，只改變上採樣層，用上述提到的三種上採樣方法訓練了多組SRNet，結果顯示，子像素卷積方法得出的效果最佳。

提高計算效率

卷積計算是CNN的關鍵，佔總計算量的90%以上，耗費了大量的計算時間。

而傳統的樸素卷積（naïve convolution）使用了6個循環結構，計算效率也是相當低。

因此，爲了提高計算效率，團隊使用矩陣乘法（MatMul）算法進行改進。

經過實驗，研究團隊發現，通過逆向col2im轉換就可以得到所需的輸出特徵結果。

也就是說，將卷積計算轉化爲矩陣乘法，通過內存空間節省推理時間，就能提高計算效率。

實驗結果

一頓操作猛如虎，最終運行速度如何呢？

來對比一下不同VSR網絡在CPU和GPU上的運行速度：

由圖可見，相比TecoGAN，僅使用CPU，EGVSR能提速8.25-9.05倍。

而在GPU的加速下，EGVSR的4K實時處理速度比TecoGAN高出7.92倍。

當然，不能只求快，還是要看看總的計算成本。

EGVSR總計算成本僅爲VESPCN的29.57%，SOFVSR12.63%，FRVSR和TecoGAN的14.96%。

速度有了提高，計算成本也大大減少，那最重要的畫質，是不是真的變高清了呢？

研究人員在VID4、TOS3和GVT72三個數據集上進行了測試實驗。

實驗數據顯示，EGVSR的確比傳統模型的性能更好，能夠修復更多空間細節，視頻看起來更加高清。

分數越低，越接近真實結果，畫面就越流暢

團隊在VSR領域中，提出了EGVSR方法，採用了各種優化技術，在保證提高視覺質量的前提下，將計算量降至最低，在硬件平臺上，4K VSR得以實時實現。

作者介紹

研究團隊共5人，Yanpeng Cao、Chengcheng Wang、Changjun Song和Yongming Tang均來自南京的東南大學的信息顯示與可視化國際合作聯合實驗室。

其中一作Yanpeng Cao是東南大學在讀研究生，研究領域爲加密域圖像處理和圖像超分辨率等。

He Li則來自英國劍橋大學工程學院。

參考資料：

https://arxiv.org/abs/2107.05307

努力分享優質的計算機視覺相關內容，歡迎關注：

  
     
     
     
   
      
      
      個人微信（如果沒有備註不拉羣！）
  
     
     
     
  
     
     
     
   
      
      
      請註明：
   
      
      
      地區+學校/企業+研究方向+暱稱
  
     
     
     
  
     
     
     
   
      
      
      

  
     
     
     


下載1：何愷明頂會分享

在「AI算法與圖像處理」公衆號後臺回覆：何愷明，即可下載。總共有6份PDF，涉及 ResNet、Mask RCNN等經典工作的總結分析

下載2：終身受益的編程指南：Google編程風格指南

在「AI算法與圖像處理」公衆號後臺回覆：c++，即可下載。歷經十年考驗，最權威的編程規範！


   
   
   
 
    
    
    下載3 CVPR2021

   
   
   

   
   
   
 
    
    
    


   
   
   

   
   
   
 
    
    
    在「AI算法與圖像處理」公衆號後臺回覆：
 
    
    
    CVPR
 
    
    
    ，即可下載1467篇CVPR 2020論文 和 CVPR 2021 最新論文

點亮，告訴大家你也在看

本文分享自微信公衆號 - AI算法與圖像處理（AI_study）。
如有侵權，請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”，歡迎正在閱讀的你也加入，一起分享。

東南大學EGVSR: 基於GAN的實時超分系統 | 太驚豔！

【導讀】東南大學研究團隊最新提出的4K實時處理超分辨率系統（EGVSR)不僅能夠修復高糊畫質，運行速度還比TecoGAN快9倍，代碼已開源。

快點，再快點！

實驗結果

DAPPER 事務 TRANSACTION

別魔改網絡了，Google研究員：模型精度不高，是因爲你的Resize方法不夠好！

深度學習中圖像分割經典算法和必備知識點整理

算！力！羊！毛！5000核時計算資源終於開放使用了！

部署教程 | ResNet原理+PyTorch復現+ONNX+TensorRT int8量化部署

YOLOS：通過目標檢測重新思考Transformer（附源代碼）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結