點擊下方“AI算法與圖像處理”,一起進步!
重磅乾貨,第一時間送達
來源:新智元 arXiv 編輯:Priscilla
【導讀】東南大學研究團隊最新提出的4K實時處理超分辨率系統(EGVSR)不僅能夠修復高糊畫質,運行速度還比TecoGAN快9倍,代碼已開源。
代碼:https://github.com/Thmen/EGVSR
有沒有試過辛辛苦苦拍了個視頻,最後一看,竟然「真·一塌糊塗」?
而現在,一個能實時重建視頻質量,處理速度還比主流方法快9倍的系統就擺在你眼前!
沒錯!這就是東南大學研究團隊最新提出的EGVSR——4K實時處理超分辨率系統!
兼顧圖像質量和速度性能
,EGVSR究竟是怎麼做到的呢?
視頻超分辨率(VSR)是從圖像超分辨率發展而來的,是計算機視覺領域的熱門話題之一。
VSR技術可以重構視頻,還原視頻清晰度,提升主觀視覺質量。
目前,我們常說的4K、8K這些高分辨率顯示技術其實已經相對成熟,但無奈主流的視頻源仍以1080P或720P爲主,從源端就已經限制了視頻系統的質量。
然而,在不久的將來,4K甚至更高的分辨率一定會取代全高清(FHD)成爲主流格式。
因此,我們就需要有高效、輕量級的 VSR 技術,將大量低分辨率 (LR) 視頻升級爲高分辨率 (HR) 視頻。
就像上面提到的,VSR技術的研究對象是視頻資源的圖像序列。
當視頻中的物體運動速度較快,在單個圖像中表現爲運動模糊效果,因此目標幀與其相鄰幀之間會出現子像素位移。
因此,VSR系統使用有效的運動補償算法對齊相鄰幀至關重要。
此外,大規模VSR的計算十分複雜,內存消耗也大,嚴重阻礙了視頻處理的實時性和低延遲性,難以在實際應用中部署。
爲了解決這些問題,東南大學研究團隊就爲大規模VSR定製了各種網絡加速策略,利用GAN來保證視頻的重建質量,提出4K實時處理超分辨率系統(EGVSR)。
由於生成對抗網絡(GAN)能夠產生更好的感知質量,因此也廣泛應用於超分辨率領域。
研究人員利用GAN強大的深度特徵學習能力,來應對VSR任務中大規模的分辨率退化。
此外,參考TecoGAN方法的設計,引入了空間-時間對抗結構,能夠讓判別器理解學習時空信息的分佈,從而避免傳統GAN遇到的時域不穩定效應。
研究人員參考高效CNN搭建架構,設計出了一個更通用,質量更高的視頻超分辨率網絡,也就是EGVSR,這樣就能滿足高達4K分辨率的超分辨率大規模視頻的需求。
EGVSR這個輕量級的網絡結構,生成器部分分爲FNet和SRNet,分別用於光流估計和視頻幀超分辨率。
EGVSR生成器部分的框架和推理階段的數據流
爲設計出更加簡化的EGVSR,研究團隊提出了以下幾種神經網絡的加速技術。
批量歸一化(BN)是深度學習領域中最常用的一種技術,它能夠提高網絡的泛化能力,防止過擬合。
因此,EGVSR中的FNet模塊大量使用了BN層。
團隊用1×1的卷積層來實現和替換BN層,再將1×1的卷積層與之前的卷積層融合,省去了BN層的計算,得到優化的BN融合層提速了5%左右。
在超分辨率網絡中,上採樣層(Upsampling layer)是最重要的部分之一。
根據技術路線的不同,大致可以分爲兩類:基於插值的上採樣方法(interpolation-based upsampling methods)和基於學習的上採樣方法(learning-based upsampling methods)。
由於所有基於插值的上採樣方法都會導致圖像邊緣模糊,而基於學習的上採樣方法則具有強大的特徵學習能力,團隊選擇了後者,具體方法包括:A)調整大小卷積(Resize Convolution);B)去卷積(Deconvolution);C)子像素卷積(Sub-pixel convolution)。
研究團隊將ESPCN網絡作爲超分辨率網絡的骨幹,只改變上採樣層,用上述提到的三種上採樣方法訓練了多組SRNet,結果顯示,子像素卷積方法得出的效果最佳。
卷積計算是CNN的關鍵,佔總計算量的90%以上,耗費了大量的計算時間。
而傳統的樸素卷積(naïve convolution)使用了6個循環結構,計算效率也是相當低。
因此,爲了提高計算效率,團隊使用矩陣乘法(MatMul)算法進行改進。
經過實驗,研究團隊發現,通過逆向col2im轉換就可以得到所需的輸出特徵結果。
也就是說,將卷積計算轉化爲矩陣乘法,通過內存空間節省推理時間,就能提高計算效率。
來對比一下不同VSR網絡在CPU和GPU上的運行速度:
由圖可見,相比TecoGAN,僅使用CPU,EGVSR能提速8.25-9.05倍。
而在GPU的加速下,EGVSR的4K實時處理速度比TecoGAN高出7.92倍。
EGVSR總計算成本僅爲VESPCN的29.57%,SOFVSR12.63%,FRVSR和TecoGAN的14.96%。
速度有了提高,計算成本也大大減少,那最重要的畫質,是不是真的變高清了呢?
研究人員在VID4、TOS3和GVT72三個數據集上進行了測試實驗。
實驗數據顯示,EGVSR的確比傳統模型的性能更好,能夠修復更多空間細節,視頻看起來更加高清。
團隊在VSR領域中,提出了EGVSR方法,採用了各種優化技術,在保證提高視覺質量的前提下,將計算量降至最低,在硬件平臺上,4K VSR得以實時實現。
研究團隊共5人,Yanpeng Cao、Chengcheng Wang、Changjun Song和Yongming Tang均來自南京的東南大學的信息顯示與可視化國際合作聯合實驗室。
其中一作Yanpeng Cao是東南大學在讀研究生,研究領域爲加密域圖像處理和圖像超分辨率等。
參考資料:
https://arxiv.org/abs/2107.05307
下載1:何愷明頂會分享
在「AI算法與圖像處理」公衆號後臺回覆:何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經典工作的總結分析
下載2:終身受益的編程指南:Google編程風格指南
在「AI算法與圖像處理」公衆號後臺回覆:c++,即可下載。歷經十年考驗,最權威的編程規範!
在「AI算法與圖像處理」公衆號後臺回覆:
CVPR
,即可下載1467篇CVPR 2020論文 和 CVPR 2021 最新論文
點亮 ,告訴大家你也在看