出身清華,大神朱儁彥再出GauGAN:AI讓你變身神筆馬良

作者 | Just

出品 | AI科技大本營(ID:rgznai 100)

一次 TED 演講中,前錘子科技設計總監羅子雄分享如何入門學設計的經驗。

要想學好設計,他提醒觀衆要先看基礎實例教程。由於互聯網上培訓機構魚龍混雜,爲了賣課,他們都喜歡利用人性的弱點,給出聳人聽聞的課程文案,比如像你聽過的英語培訓機構《三十天教你突破雅思7分》,設計和畫畫教程的文案也是類似,《如何六步畫好人物肖像》。

當然,還有更狠的:《如何兩步畫好人物肖像》。

兩步?這是第一步:

第二步。結束。

這完全是“神筆馬良”的效果啊。雖然是調侃,但也描繪了人們在想要學好新事物時一步登天,追求速成的荒誕心態。

可是,也不是人人都想成爲每一筆都要自己親力親爲的畫家,對於設計師、插畫師等專業人士來說,在保證質量的條件下,要追求項目完工的效率,要想達到這兩個目標的最優解,最好的方式,顯然是藉助科技的力量。

現在要介紹的這款 AI 軟件 ,能讓你真的見識一下 “X 步畫出任何你想要的寫實風景畫”,它叫 GauGan 系統。

在 3 月 19 日的 GTC 2019 上,Nvidia 推出了這款 AI 繪畫系統,該軟件使用生成對抗性網絡,只要你給出簡單的草圖,再點擊幾下,幾秒鐘就可繪製逼真的風景圖像,下面是實打實表演了一個《如何三步畫一副寫實風景圖》,AI 誠不我欺。

GauGan 目前有三種工具:油漆桶、鋼筆和鉛筆。屏幕底部是天空、樹木、雲等一系列選定對象,選擇任一對象在左側簡單描繪,就會自動生成相應的逼真物體。

要做到這種效果,當然離不開龐大的數據來訓練模型。目前,Nvidia 已爲 GauGAN 深度學習模型提供了 100 萬張從 Flickr 收集的數據。需要指出,GauGAN 並不只是對已有的照片進行拼接,實際上最終生成的圖像都是獨特的合成圖像。所以即便不同的用戶做出相同的設置並畫出相似的草圖,系統中也會通過內置的參數給出生成不同的圖像。

也許會有人問,GauGan 以後能不能畫人物肖像?儘管目前 Nvidia 沒有明確給出可能性,但一個合理的推測是,如果給 GauGan 系統訓練足夠多的人物肖像數據,畫一幅你想要的肖像畫應該不成問題。如果你還記得最近那個很火的“這個人不存在”網站,它就利用 Nvidia 開源的 StyleGan 算法隨機生成了人臉圖像。

GauGan 發佈後,網友們也對其可能出現的問題和實際應用展開了討論。

有網友在 YouTube 上問了個惡作劇問題:將草圖中的天地倒置,GauGan 系統會生成什麼圖像?

回覆中點贊最高的網友說神經網絡會亂成一團麻,另一位網友的回答還算靠譜,他說 Sky-Net 會排除終結器大軍,它們是不會允許這種事發生的。

還有網友在 reddit 上評論稱,如果將其應用在 3D 環境中,尤其 VR 世界的遊戲開發會更容易。

顯然,該系統可能對視頻遊戲設計師、架構師等專業人士很有吸引力,比如能夠幫他們提高創建遊戲場景的效率。不過目前 Nvidia 沒有任何商業化發佈的計劃,但可能會很快發佈一個能讓任何人都使用的公開試驗版。

Nvidia 也會將 GauGAN 應用到它剛剛發佈的一個叫 AI 遊樂園的網站上,現在感興趣的網友在該網站上可以體驗基於 AI 的圖像修復、藝術風格轉換、真實感圖像合成功能。

https://www.nvidia.com/en-us/research/ai-playground/

GauGAN 背後的研究論文

GauGAN 系統的創建在一篇名爲《空間自適應歸一化的語義圖像合成》(或稱 SPADE 項目)的論文中有詳細介紹,這篇論文由 UC Berkeley, NVIDIA, MIT CSAIL 實驗室的 4 名研究人員共同寫就,已公開發布在 Arxiv 上。值得一提的是,該論文將在 6 月的 CVPR 2019 大會上做口頭報告。

所謂空間自適應歸一化是一個簡單但有效的層,用於在給定輸入語義佈局的情況下合成照片級的逼真圖像。論文摘要提到,以前的方法直接是將語義佈局作爲輸入提供給網絡,然後通過卷積、標準化和非線性層進行處理。

他們則證明這並不是最理想的,因爲歸一化層傾向於“洗掉”語義信息。爲了解決這個問題,他們建議使用輸入佈局通過空間自適應的、學習的變換來調整歸一化層中的激活。與現有方法相比,幾個具有挑戰性的數據集上的實驗表明,該方法在視覺保真度和與輸入佈局的對齊性方面具有優勢。

實際上,GauGAN 是基於去年推出的能同樣呈現虛擬世界的 Pix2Pix 系統,但後者在仿真風景方面存有一定瑕疵,從上圖比對效果中就可以明顯看到。

最後,他們的模型允許用戶輕鬆地控制合成結果的樣式和內容,以及創建多模態結果。

方法簡述

在許多諸如批量標準化(Batch Normalization)這樣的常見的標準化技術中,在實際標準化步驟之後應用了學習的仿射層(如在 PyTorch 和 TensorFlow 中)。而在 SPADE 項目中,仿射層是從語義分割映射來學習的。這類似於條件歸一化,只是學習仿射參數現在需要空間自適應,這意味着我們將對每個語義標籤使用不同程度的縮放和偏向。

使用這種簡單的方法,語義信號可以作用於所有層的輸出,不受可能丟失此類信息的規範化進程的影響。此外,因爲語義信息是通過 SPADE 中的層提供,所以隨機潛在向量可以作爲網絡的輸入,其可以用於操縱所生成圖像的樣式。

更多詳情,參見論文:https://arxiv.org/abs/1903.07291

Flickr 圖像中的應用

如前所述,GauGAN 的神經網絡是通過 100 張開源的 Flickr 圖像進行訓練,它還能夠理解如雪、樹木、水等超 180 個物體之間的關係。對物體之間如何相互關聯的理解意味着河水旁的樹會有倒影,或者當季節變化時並且地面上有雪時,就會繪成沒有葉子的樹。也就是說,神經網絡能夠根據它對真實圖像的瞭解對最終生成圖像的相關細節進行合理填充。

由於 SPADE 適用於不同的標籤,因此可以使用現有的語義分割網絡對其進行訓練,以學習從語義映射到照片的反向映射。這些圖片是由 SPADE 從 Flickr 上抓取的 4 萬張圖片進行訓練生成的。

論文作者稱,他們將很快發佈代碼、訓練模型和所有圖像。

GitHub地址:https://github.com/nvlabs/spade/

論文作者中的華人面孔

論文的四位作者中,有兩位是華人科學家。其中一位是朱儁彥,他於 2012 年獲得清華大學計算機科學系的工學學士學位,2017 年獲得 UC Berkeley 電氣工程與計算機科學系的博士學位,他的導師是 Alexei Efros。2018 年,朱儁彥獲得了 UC Berkeley 頒發的 David J. Sakrison Memorial Prize,以及的 Nvidia 的 Pioneer Research Award。目前,他是 MIT 計算機與人工智能實驗室(CSAIL)的一名博士後研究員。

朱儁彥被稱爲計算機圖形學領域現代機器學習應用的開拓者,他發表了第一篇用深度神經網絡系統地解決自然圖像合成問題的論文,其重點科研成果 CycleGAN,不僅爲計算機圖形學等領域的研究人員所用,也成爲視覺藝術家廣泛使用的工具。

另一位是 Ming-Yu Liu,2016 年加入 NVIDIA,現爲 Nvidia Research 首席研究科學家,他的研究重點是圖像生成和理解的生成模型。此前,他是三菱電機研究實驗室(MERL)的首席研究科學家。他於 2012 年獲得了馬里蘭大學帕克分校電氣與計算機工程系的博士學位。他的物體姿態估算系統於 2014 年被 R&D 雜誌評爲最具創新性的百項技術產品之一。在 CVPR 2018 中,他在 WAD 挑戰中的語義分割競爭領域適應和魯棒視覺挑戰中的光流競賽中獲得了第一名。

(本文爲 AI科技大本營原創文章,轉載請微信聯繫 1092722531)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章