高糊視頻秒變4K!Facebook發佈低分辨率視頻實時渲染算法,網友:是好東西,但是玩不起...

賈浩楠 發自 凹非寺
量子位 報道 | 公衆號 QbitAI

還記得那個引來巨大爭議,最後把LeCun逼退推特的低分辨率圖像還原算法PULSE嗎?

PULSE是針對低分辨率圖像進行還原的,而就在PULSE問世不久後,一個針對模糊視頻進行實時高分辨率渲染的算法問世了。

前幾天,Facebook公佈了一項在即將舉行的SIGGRAPH 2020會議上展示的新論文,提出了一種新的神經網絡算法神經超採樣

新算法實現了低分辨率視頻的4*4的實時渲染也就是說能把大部分視頻分辨率提升16倍,直接變成4K視頻!

而1080p的視頻渲染延遲更是控制到24.4ms!

除了超低延遲,這種算法的巨大進步在於擺脫了特定硬件和技術的束縛(如虛幻引擎的TAAU和英偉達的DSSL),在PC上就可以實現。

高糊騎兵視頻馬上變4K!

話不多說,直接上實時渲染效果實測。

下圖由上至下,分別是低分辨率輸入視頻、神經超採樣算法(分辨率提高16倍)渲染結果、離線渲染目標視頻截圖。

可以看出,“神經超採樣”算法的實時渲染輸出,視頻細節的精度已經高度接近目標渲染視頻。

這樣的優秀表現引來網友一片驚歎,儘管Facebook方面認爲這項技術未來主要用於遊戲開發和實時VR技術,但網友們紛紛喊話FB,希望看到這項技術用在早年的3D遊戲重置上,比如三角洲部隊放逐等等。

儘管有些遊戲已經有了重製版,但這個算法可以實現自動渲染,極大提升效率。

那麼,這種高性能的實時渲染算法到底怎麼實現的呢?

秒變4K是如何實現的

神經超採樣實時渲染(Neural-Supersampling for realtime rendering)算法構造主要有4個不同功能模塊。

首先是特徵提取模塊,包含3層卷積神經網絡。這個子網絡單獨處理每個輸入幀, 並在除當前幀外的所有幀中共享權重。

對於每一幀,特徵提取模塊將顏色和深度作爲輸入,並生成8個通道的學習特徵,然後與輸入的顏色和深度進行連接,從而獲得總共12個通道的特徵。網絡如下圖表示。

其次,爲了降低重建網絡的複雜性,算法應用了時空重投影,通過使用渲染的運動矢量,將前一幀的像素樣本和學習的特徵投射到當前。

爲了充分利用低層像素後向運動矢量,需要在目標(高)分辨率空間進行時空重投影。首先,將輸入(低)分辨率空間的像素樣本投影到高分辨率空間,採用零上採樣的方式,即把每個輸入像素分配到其對應的高分辨率像素上,並將其周圍所有缺失的像素作爲零。

每個輸入像素的位置平均落在高分辨率中的????像素之間,其中????爲上採樣比。之所以選擇零上採樣,一是爲了提高效率,二是爲了給網絡提供哪些樣本有效或無效的信息。

然後,利用運動矢量的片狀平滑特性,簡單地通過雙線性上採樣將渲染的低分辨率運動矢量圖調整爲高分辨率。雖然這種簡單的方法會給上採樣的運動矢量帶來誤差,但能夠通過這種方法實現對運動矢量的控制。

接下來,進行無採樣前幀的後向扭曲,這一步驟使用了向上採樣向量,對前一幀進行零向上採樣。在翹曲過程中則採用雙線插值。

第三部分是特徵重新加權

渲染的運動矢量不反映動態不協調或陰影幀之間的變化。因此,扭曲的幀會包含僞影,如在遮擋區域的陰影和在不一致的陰影區域不匹配的像素。

爲了解決這個問題,研究人員引入了一個特徵重新加權方法模塊,以屏蔽掉這些不匹配的樣本。

特徵重新加權模塊是一個3層卷積神經網絡。它將當前幀的零上採樣的RGB-D、零上採樣、扭曲的前一幀同時作爲輸入,爲之前的每一幀生成一個像素加權圖,權重值在0到10之間,其中10是一個超參數。

 

超參數的設置是爲了讓學習到的地圖不僅能衰減,而且還能也會放大每個像素的特徵。

最後將每個加權圖乘以對應前一幀的所有特徵。

第四部分是重建,將當前幀的特徵和重新加權的先前幀的特徵連接起來,並反饋給重建網絡,該網絡會輸出恢復的高分辨率圖像。重建子模塊採用3級、10層的U-Net,並帶有跳過連接。

實驗結果

團隊的實驗條件是英偉達Titan V卡,並使用了Nvidia TensorRT對算法進行了16bit優化。

下圖是算法渲染不同分辨率視頻所需的運行時間(提升16倍分辨率),單位爲ms。其中Ours爲基礎算法,Ours-Fast是經過簡化的快速版本。

這張表表示的是渲染目標爲1080p分辨率時,算法不同步驟的運算時間。

與現行的同功能算法相比,4*4超神經採樣算法在各個指標都領先。這些結果是在常用的4個視頻上經過10次測試得出的。

網友吐槽:不能在通用CPU上運行的實時都不叫實時

儘管4*4超神經採樣算法在低分辨率視頻實時渲染上有很好的表現,而Facebook官方也宣稱這個算法突破了特殊硬件和技術的限制,在PC上就能運行。

但網友們依然吐槽,要達到實驗結果展示的“實時”渲染表現,一塊英偉達Titan V是必須的。

而現在一塊Titan V官方售價3000美元左右,經過不同廠商優化過的,更是價格高昂。

難道“實時”只是有錢人的特權嗎?

Reddit網友呼籲,應該建立一個標準,只有在通用CPU上能實現到實時的,才能叫真實時。

那麼,你認爲這個實時渲染高分辨率算法的價值有多少呢?你願意付出一塊Titan V的成本來實現這一算法嗎?

論文地址
https://research.fb.com/publications/neural-supersampling-for-real-time-rendering/

成果演示
https://research.fb.com/blog/2020/07/introducing-neural-supersampling-for-real-time-rendering/

本文系網易新聞•網易號特色內容激勵計劃簽約賬號【量子位】原創內容,未經賬號授權,禁止隨意轉載。

報名 | 四場直播詳解AI芯片所有知識點

7月8日—7月11日期間,燧原科技資深產品專家和軟件架構師將爲大家分別詳細講解:

  • 高端人工智能訓練芯片的發展趨勢

  • 剖析軟件全棧的技術難點

  • 人工智能訓練芯片在雲計算中所面臨的挑戰和機遇

四場直播將講透所有的芯片知識點,歡迎掃碼報名~~

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態

喜歡就點「在看」吧 !

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章