畫個草圖生成2K高清視頻,這份效果驚豔的研究值得你跑一跑

導讀:在圖像到圖像合成的研究領域熱火朝天的當下,英偉達又放大招,聯合 MIT CSAIL 開發出了直接視頻到視頻的轉換系統。

該系統不僅能用語義分割掩碼視頻合成真實街景視頻,分辨率達到 2K;能用草圖視頻合成真實人物視頻;還能用姿態圖合成真人舞蹈視頻。

更令人驚豔的是,在語義分割掩碼輸入下,換個掩碼顏色該系統就能直接將街景中的樹變成建築!目前該項目已開源。

作者:Ting-Chun Wang 等

來源:機器之心(ID:almosthuman2014)編譯

參與:劉曉坤、王淑婷

01 引言

模擬和再現動態視覺世界對於打造智能體來說必不可少。除了純粹的科學興趣,學習合成連續的視覺體驗在計算機視覺、機器人學和計算機圖形學領域都有廣泛的應用。例如對於 model-based 的強化學習,逼近動態視覺的視頻合成模型能以較少的真實體驗數據訓練智能體。使用學習的視頻合成模型,人們可以生成逼真的視頻,而無需明確指定場景幾何形狀、材料、光傳輸以及它們的變換,這在使用標準圖形渲染技術時會遇到很多麻煩,但卻是必要的。

視頻合成的形式有很多種,包括未來視頻預測和無條件視頻合成。在本文中,作者研究了一種新的形式:視頻到視頻的合成。從核心來說,其目標是學習一種映射函數,它可以將輸入視頻轉換成輸出視頻。就目前已知的研究工作來看,儘管圖像到圖像合成研究進行得熱火朝天,但視頻合成的通用解決方案還沒有被探索過。作者表示,本論文提出的方法是受到之前專用視頻合成方法啓發。

作者將視頻到視頻的合成問題稱之爲分佈匹配問題,其目標是訓練一個模型,使得在給定輸入視頻後構建一個條件分佈以近似合成類似於輸入視頻的真實視頻。爲此,他們利用了生成對抗學習框架完成這一建模過程。

給定成對的輸入和輸出視頻,作者學習把輸入視頻映射到輸出域。通過精心設計的生成器和判別器網絡以及新的學習目標函數,該方法可以學習合成高分辨率、時間連貫的照片級視頻。此外,作者還將該方法擴展到多模態視頻合成。在相同的輸入條件下,該模型可以製作不同外觀的視頻。

作者對在幾個數據集上進行了廣泛的實驗驗證,任務是將一些列分割掩碼轉換成照片級的視頻。定量和定性結果都表明,該方法合成的鏡頭看起來比強基線更逼真。他們還進一步證明,該方法可以生成長達 30 秒的真實感 2K 分辨率視頻。它還允許用戶對視頻生成結果進行靈活的高級控制。例如,用戶可以輕易地用街景視頻中的樹替換建築物。此外,作者還將該方法擴展到了未來預測,結果表明其方法優於現有系統。作者所用代碼、模型和其它結果都可以在其網站上找到。

▲圖 1:Cityscapes 結果。其中左上爲輸入圖像、右上爲 pix2pixHD 生成的圖像、左下爲 COVST 生成的圖像、右下爲本論文提出方法生成的圖像

視頻內容

02 論文摘要

論文:Video-to-Video Synthesis

論文地址:https://tcwang0509.github.io/vid2vid/paper_vid2vid.pdf

摘要:我們研究了視頻到視頻的合成問題,目標是學習從輸入源視頻(例如,一系列的語義分割掩碼)到輸出照片級視頻的映射函數,輸出視頻精確地描繪了源視頻的內容。與之對應的圖像問題,即圖像到圖像合成問題是目前流行的研究課題,而視頻到視頻的合成問題則在文獻中很少出現。在沒有理解時間動力學的情況下,直接把已有的圖像合成方法應用到輸入視頻通常會導致視覺效果低、時間不連貫的視頻。在本文中,我們提出了一種新型的生成對抗網絡框架下的視頻到視頻合成方法。通過精心設計生成器和判別器架構,結合空間-時間對抗目標函數,我們在多種輸入視頻格式下生成了高分辨率、時間連貫的照片級視頻,其中多種形式的輸入包括分割掩碼、草圖和姿態圖。在多個基準上的實驗結果表明,相對於強基線,我們的方法更具優越性。特別地,我們的模型可以合成長達 30 秒的 2K 分辨率街景視頻,與當前最佳的視頻合成方法相比具備顯著的優勢。最後,我們把該方法應用到未來視頻預測中,結果超越了多個當前的最佳系統。

03 實驗

▲表 1:在 Cityscapes 街景數據集上視頻到視頻合成方法的對比結果

▲表 2:控制變量研究,作者對比了提出的方法和 3 個變體的性能,分別是初始 vs 無背景-前景先驗、初始 vs 無條件視頻判別器、初始 vs 無流扭曲

▲表 3:在 Cityscapes 數據集上未來視頻預測方法的對比結果

▲圖 2:Apolloscape 的結果:左圖:pix2pixHD,中間:COVST,右圖:作者提出的方法,輸入語義分割掩碼視頻在左下角展示

▲圖 3:多模態視頻合成結果示例,這些合成視頻包含不同的道路表面

▲圖 4:改變輸入語義分割掩碼來生成不同視頻的示例結果,左圖:樹到建築,右圖:建築到樹,原始視頻如圖 3 所示

▲圖 5:草圖到人臉的視頻結果示例

視頻內容

▲圖 6:姿態圖到舞蹈的視頻結果示例

視頻內容

來源:GitHub

項目展示:

https://tcwang0509.github.io/vid2vid/

項目地址:

https://github.com/NVIDIA/vid2vid

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章