淺談AI視頻技術超分辨率

泛娛樂應用成爲主流,社交與互動性強是共性,而具備這些特性的產品往往都集中在直播、短視頻、圖片分享社區等社交化娛樂產品,而在這些產品背後的黑科技持續成爲關注重點,網易雲信在網易MCtalk 泛娛樂創新峯會上重點介紹了超越像素的AI視頻黑科技“超分”。
超分辨率(Super-Resolution)通過硬件或軟件方法提高原有圖像的分辨率,通過一幅或者多幅低分辨率的圖像來得到一幅高分辨率的圖像過程就是超分辨率重建,可以通過人工智能深度學習將低分辨率視頻重建成高分辨率視頻模糊圖像、視頻瞬間變高清,爲移動端爲用戶帶來極致視頻體驗。
什麼是超分辨率
廣義的超分辨率 (SR, Super Resolution) 是指一類用於提升圖像分辨率的技術。這類技術已經存在了很長一段時間,應用也非常廣泛。事實上,每當我們需要以不同於原始分辨率的尺寸來顯示或存儲圖像時,就已經使用了SR,只不過使用的是其中最爲簡單的那類算法而已。
隨着圖像處理理論的發展,以及機器學習的普及和更高性能的處理器的出現,各類更優秀的SR算法陸續出現。現在我們提及SR時,往往是特指依靠機器學習來實現的圖像放大算法。下文提到SR時也均特指這類算法。它能夠提供遠超於傳統圖像放大算法的圖像質量。當然,運算量也要高得多。

圖1. 將原始圖像縮小3倍後分別使用Bicubic (一種傳統圖像放大算法) 和SRCNN (一種基於CNN的圖像放大算法) 進行放大[1]。
超分辨率理論描述
SR算法本質上和傳統圖像放大算法沒什麼不同,都是利用已有的圖像信息去預測需要的像素點。只不過傳統算法的預測模型非常簡單,可以通過人工設計的方式實現。例如雙線性插值,就是利用目標像素周圍的四個點來做預測,離目標位置越近的點權重越大,通過一個簡單的公式就能得到結果: f(x,y)=f(0,0)(1-x)(1-y)+f(1,0)x(1-y)+f(0,1)(1-x)y+f(1,1)xy

圖2. 雙線性插值,通過Q11~Q22這四個點預測點P
而現代SR算法爲了得到更精確的預測結果,其預測模型則複雜了很多。一般有多個卷積層和激活層,會利用到目標像素周圍很大一片區域的圖像信息,包含成千上萬個模型參數,純靠人工設計是不現實的。所以人們纔會依靠機器學習的方式來決定參數。這種做法還附帶有不少好處。例如你無需對圖像處理有深厚的理解就可以訓練模型,再比如你可以根據自己的應用場景調整訓練集,從而得到更適合你的預測模型。
下圖是一個簡單的例子,來自經典的超分算法SRCNN[1]。模型基於卷積神經網絡,以原始圖像爲輸入,先是用廉價的上採樣算法將分辨率提升到期望的大小, 然後經過3層分別爲9x9x128,3x3x64,5x5的卷積運算,得到超分輸出。

圖3. SRCNN網絡結構
這幾年每屆超分競賽都會出現不少值得借鑑的新理論和新實現,SR的效果上限被不斷提高。介紹這些算法的文章有很多,感興趣的讀者可以自行搜索。
什麼時候用超分辨率
雖然視覺效果很好,但SR在使用上有幾方面限制需要我們注意。其中最重要的就是性能這個硬性指標。即便是極爲簡單的SR算法,其運算量也是傳統放大算法的上千倍,能否滿足應用的性能需求是需要經過測試和優化的。
另外,目前的SR算法主要分兩個流派,一派的目標是儘可能地還原信息,另一派則允許在不影響視覺體驗的前提下對內容進行一些修改。我們需要根據應用場景來選擇不同的算法。如果在對圖像還原度要求較高的場合下使用了不適當的SR算法,可能帶來不好的後果。

圖4. 上圖左側爲SRGAN模型[2]放大4倍生成的圖片,可以看到首飾的紋理被大幅修改。
還有一點,目前的SR算法大都針對自然圖像。對於一些特殊的圖像,例如因爲縮小而失真的文字,直接使用SR算法去放大的效果實際測試下來並不理想。

圖5. 直接使用SR並不能較好地還原失真的文字
超分辨率的優勢
基於深度學習的超分技術能較好的恢復圖像細節. 在視頻發送源可能因爲種種客觀限制, 無法提供高分辨率的視頻. 比如攝像頭採集能力不足, 網絡帶寬不足,源端處理能力不足等, 在這些情形下, 如果雲端或者接收端的處理能力滿足要求, 可以藉助超分技術, 對於視頻質量做恢復, 呈現給用戶高質量的視頻. 所以超分技術爲在惡劣的客觀條件下的視頻應用提供了高質量呈現的可能, 是傳統的應用藉助人工智能技術提升使用體驗的一種典型落地場景.
網易雲信在超分辨率的實踐
網易雲信提供了點播直播和實時音視頻等技術能力。 支持的終端包括Windows PC, MAC, iPhone, iPad, Android手機, 機頂盒, 智能手錶等可穿戴設備。其中可穿戴設備, 機頂盒等終端的成本控制比較嚴格, 通常CPU處理能力相對較弱, 無法支持高清, 甚至標清的視頻規格, 但是作爲這些終端的使用者, 它們依然希望看到高清或標清的視頻質量, 接收的終端可能是PC或者性能較好的手機, 平板電腦等設備,他們自己可能有能力提供優秀的計算資源。在這種場景下, 網易雲信可以在接收的終端上通過超分辨率技術, 恢復視頻質量,極大地提升了移動端用戶的體驗。如果接收的終端本身運算能力不足以支撐深度學習, 但是有能力處理高清視頻的解碼, 網易雲信依然可以在雲端對低分辨率的視頻進行處理, 採用包括超分在內的技術,對質量恢復後,將高質量的視頻提供到接收終端。
尤其針對弱網情況,雲信將在雲端或者接收終端通過超分技術對質量進行補償, 爲用戶呈現超高質量視頻。雲信通過人工智能深度學習將低分辨率視頻重建成高分辨率視頻模糊圖像、視頻瞬間變高清,爲移動端爲用戶帶來極致視頻體驗。
[1] C. Dong, C. C. Loy, K. He, and X. Tang. Learning a deep convolutional network for image super-resolution. In European Conference on Computer Vision (ECCV), pages 184–199. Springer,
2014.
[2] Ledig C, Theis L,Huszar F, et al. Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network[J]. 2016:105-114.

想要閱讀更多技術乾貨、行業洞察,歡迎關注網易雲信博客。

瞭解網易雲信,來自網易核心架構的通信與視頻雲服務。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章