50 億次播放,1700 萬人參與的「變身漫畫」,抖音團隊接受 CSDN 採訪

By 超神經

內容提要:近年來,各種 P 圖、美顏、特效應用都深受用戶喜愛。最近,抖音最新推出的「變身漫畫」特效又火上了熱搜。爆火的背後,有哪些關鍵技術?

關鍵詞:抖音 變身漫畫 GAN ByteNN

編輯:神經小兮

內容整理自 CSDN、字節範兒(文末附鏈接)

最近,抖音上的一款「變身漫畫」特效火了,從路人到明星,都忍不住玩兒上一把。

只需一秒,便可看到二次元世界的自己,擁有水汪汪的大眼睛和白皙的皮膚,看上去元氣滿滿

乘風破浪的萬茜姐姐和唱跳 rap 的蔡徐坤都參與了

截止目前,在抖音上已經有 1770 用戶使用「變身漫畫」特效製作了視頻,這一系列視頻,累積獲得 56.7 億次播放。

 一年前的靈感,用 GAN 攻破

雖說這款特效玩起來無門檻,變身僅需一秒,但其實爆款的背後,是抖音影像團隊長時間的研發與打磨。

2018 年,字節跳動專門成立了影像團隊,支持抖音、火山、輕顏等全系產品的打磨,其中包括長期探索真人風格化玩法,力圖持續打造擊中用戶的特效。

影像特效、工具崗位持續大量招聘

科技媒體 CSDN 第一時間對相關團隊進行了採訪,我們作了部分引用:

這次推出的「變身漫畫」項目,靈感是來自大約一年前的一次腦暴會議。

瞭解到研發同學在一次腦暴會中,提起「讓真人秒變漫畫臉」的想法。這一想法讓團隊都興奮起來。

說做就做。2019 年 9 月,抖音影像團隊迅速拉上協作支持的研發、設計等同事一起參與進來。

抖音這次推出的漫畫變身特效主要技術也還是 GAN,但與以往相比也有差異之處,團隊在 GAN 的基礎上,加入了新的嘗試。

實際上,抖音實時漫畫特效在最終技術選型之前,曾對比過大量當前生成技術方法,包括生成漫畫的方法,如 ugatit,也有做其他任務的方法,如 MUNIT 等。

但經調研發現,當前的 GAN 用於漫畫生成、風格遷移等任務存在一些問題。

首先是訓練不穩定,其次是超參數進行一些微小的調整,就可能對結果產生很大影響,再者還容易遇到梯度消失的問題。

對此,抖音的改善方案是嘗試多種 loss,包括WGAN、LSGAN 等,但目前爲止還是沒有銀彈(意爲沒有萬金油。在軟件工程中,銀彈一般指可解決複雜問題的簡單、奇妙方案),所以需要在實驗過程中監控梯度的變化。

連續一兩個月,團隊都在訓練新模型

抖音的技術團隊也表示,在漫畫視頻技術探索過程中,技術團隊在初期嘗試中屢屢碰壁,在前期預研中,輸出版本效果與圖片版相差較大,且性能也未能達標。

在幾次嘗試效果均不理想的情況下,團隊內部一度對實時漫畫的可行性也出現了懷疑。

但好在幾次失敗的嘗試後,在總結經驗時有人指出了關鍵所在:之前的模型結構單一,不同模型的優缺點不完全一致。

於是,技術團隊嘗試了模型嫁接的方法,用不同的模塊拼接出新模型,大幅提升了漫畫的生成質量。

經歷長時間打磨,團隊成員能輕鬆分辨各模型的優劣

在質量達標後,又通過計算每層的重要程度來裁剪模型,最終確定了實時版模型的結構。

效果產品團隊也參與模型效果調優,總結出參數與效果之間的定量關係,通過微調參數優化模型。最終,這個爆款終於誕生。

 實時變身漫畫難點多,如何攻克?

「變身漫畫」最吸引人的地方之一,就是它的實時變換。

那麼,與靜態圖片處理相比,實現實時漫畫處理究竟難在哪裏呢,尤其是在手機端實現?

抖音技術團隊表示,實時視頻漫畫處理難度還是挺高的,比如:

  • 首先,模型本身計算量需要非常小,在有限的計算量下要達到比較好的漫畫效果,需要讓每一次運算都要充分發揮其價值;

  • 其次,抖音的用戶衆多,用戶使用的機型性能差距也非常大,需要專門研發複雜、定製化的模型下發策略。

爲了滿足不同層次用戶的需求,抖音研發了複雜的模型下發策略,實現了模型的定製化下發,這在最終保證了實時漫畫的成功上線,在效果和性能方面達到實時漫畫的要求。

此外,抖音漫畫特效啓用了字節跳動自研的推理引擎 ByteNN。這個針對端側算法快速落地的推理引擎,不僅支持 CPU 和 GPU 的通用計算能力,也充分發揮了廠商 NPU/DSP 硬件的加速能力,保證了實時漫畫能夠穩定支持抖音海量的用戶羣體。

當然,這個實時漫畫特效,目前的算法針對一些特殊場景還是有一定優化空間,在之後的迭代中也會從模型本身和推理引擎兩個方面入手,提升模型效果的同時優化推理性能。

 字節跳動影像團隊:漫畫濾鏡既要像,還得美

近年來,將影像進行漫畫、手繪風格的特效也是層出不窮,如何脫穎而出成爲爆款,這是團隊所面臨的難題。

根據字節跳動影像團隊的大彭的說法,最關鍵的,就是要給用戶帶來驚喜和共鳴。

「變身漫畫」特效團隊一方面,實現了既「像」又「美」,另一方面,通過技術的不斷打磨,實現了千人千面的實時變換效果。

項目組的玉辰說,「我們定義了『精緻美』和『極致像』兩大特點。既要全面保留用戶特徵、像本人,又要生成出漫畫獨有的藝術美感。」

此外,團隊結合日漫、國漫、韓漫中形象中的特長,設計出了最終版的漫畫,審美獲得了廣泛認可。

變身漫畫特效:早期版本 (上)與最終版本(下)對比 

在玩法上,團隊最終選取了 6 個道具創意,比如用手滑動、點頭等變換方式,改善交互體驗,照顧到了不同年齡、層級和喜好的用戶需求。

 GAN:圖像生成領域的重要法寶

我們說回這個爆款的基礎技術——GAN(Generative Adversarial Networks )生成式對抗網絡

近年來,基於 GAN 的研究如火如荼。每次刷屏的圖像生成、轉換的研究成果背後,幾乎都離不開 GAN 技術。

2014 年,Ian Goodfellow 及其團隊,於 2014 年發表的論文《Generative Adversarial Networks》中,開創性地提出一種深度學習模型 GAN。

出生於 1985 年的 Ian Goodfellow

爲蘋果特別項目組機器學習負責人、前谷歌大腦科學家

GAN 模型的主要結構包括生成器 G(Generator)和判別器 D(Discriminator)。該模型的訓練則是處於一種對抗博弈狀態中的。

運用對抗博弈思想,在訓練過程中,生成器 G 的目標就是儘量生成真實的圖片去欺騙判別器 D。而 D 的目標就是儘量把 G 生成的圖片和真實的圖片分別開來。這樣,G 和 D 便構成了一個動態的「博弈過程」。

最終博弈的結果呢?就是在理想狀態下,G 可以生成足以「以假亂真」的圖片。

通俗地來說,G 就像是一個藝術品贗品製作者,想方設法騙過鑑別器 D,最終得到一個正品贗品難以分辨的作品。

近年來,GAN 的應用可以說非常豐富了。比如,用來生成動漫人物:

2017 年,來自復旦、同濟等大學的團隊

打造出基於 GAN 的動漫人物頭像生成器

利用 CycleGAN  進行圖像轉換:

基於 CycleGAN 的圖像轉換,真實照片變成各種繪畫風格

2018 年英偉達提出的 StyleGAN,生成的假肖像圖:

此研究結果當時一發布,便震驚國內外

資料來源:

https://mp.weixin.qq.com/s/lLfp8F6G2uHxYpCMCF1Tmw

https://mp.weixin.qq.com/s/WeZD__I7Y98Fg18pEZ9L9g

—— 完 ——

掃描二維碼,加入討論羣

獲得更多優質數據集

瞭解人工智能落地應用

關注頂會&論文

回覆「讀者」瞭解詳情

更多精彩內容(點擊圖片閱讀)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章