50 億次播放，1700 萬人參與的「變身漫畫」，抖音團隊接受 CSDN 採訪

By 超神經

內容提要：近年來，各種 P 圖、美顏、特效應用都深受用戶喜愛。最近，抖音最新推出的「變身漫畫」特效又火上了熱搜。爆火的背後，有哪些關鍵技術？

關鍵詞：抖音變身漫畫 GAN ByteNN

編輯：神經小兮

內容整理自 CSDN、字節範兒（文末附鏈接）

最近，抖音上的一款「變身漫畫」特效火了，從路人到明星，都忍不住玩兒上一把。

只需一秒，便可看到二次元世界的自己，擁有水汪汪的大眼睛和白皙的皮膚，看上去元氣滿滿。

乘風破浪的萬茜姐姐和唱跳 rap 的蔡徐坤都參與了

截止目前，在抖音上已經有 1770 多萬用戶使用「變身漫畫」特效製作了視頻，這一系列視頻，累積獲得 56.7 億次播放。

一年前的靈感，用 GAN 攻破

雖說這款特效玩起來無門檻，變身僅需一秒，但其實爆款的背後，是抖音影像團隊長時間的研發與打磨。

2018 年，字節跳動專門成立了影像團隊，支持抖音、火山、輕顏等全系產品的打磨，其中包括長期探索真人風格化玩法，力圖持續打造擊中用戶的特效。

影像特效、工具崗位持續大量招聘

科技媒體 CSDN 第一時間對相關團隊進行了採訪，我們作了部分引用：

這次推出的「變身漫畫」項目，靈感是來自大約一年前的一次腦暴會議。

瞭解到研發同學在一次腦暴會中，提起「讓真人秒變漫畫臉」的想法。這一想法讓團隊都興奮起來。

說做就做。2019 年 9 月，抖音影像團隊迅速拉上協作支持的研發、設計等同事一起參與進來。

抖音這次推出的漫畫變身特效主要技術也還是 GAN，但與以往相比也有差異之處，團隊在 GAN 的基礎上，加入了新的嘗試。

實際上，抖音實時漫畫特效在最終技術選型之前，曾對比過大量當前生成技術方法，包括生成漫畫的方法，如 ugatit，也有做其他任務的方法，如 MUNIT 等。

但經調研發現，當前的 GAN 用於漫畫生成、風格遷移等任務存在一些問題。

首先是訓練不穩定，其次是超參數進行一些微小的調整，就可能對結果產生很大影響，再者還容易遇到梯度消失的問題。

對此，抖音的改善方案是嘗試多種 loss，包括WGAN、LSGAN 等，但目前爲止還是沒有銀彈（意爲沒有萬金油。在軟件工程中，銀彈一般指可解決複雜問題的簡單、奇妙方案），所以需要在實驗過程中監控梯度的變化。

連續一兩個月，團隊都在訓練新模型

抖音的技術團隊也表示，在漫畫視頻技術探索過程中，技術團隊在初期嘗試中屢屢碰壁，在前期預研中，輸出版本效果與圖片版相差較大，且性能也未能達標。

在幾次嘗試效果均不理想的情況下，團隊內部一度對實時漫畫的可行性也出現了懷疑。

但好在幾次失敗的嘗試後，在總結經驗時有人指出了關鍵所在：之前的模型結構單一，不同模型的優缺點不完全一致。

於是，技術團隊嘗試了模型嫁接的方法，用不同的模塊拼接出新模型，大幅提升了漫畫的生成質量。

經歷長時間打磨，團隊成員能輕鬆分辨各模型的優劣

在質量達標後，又通過計算每層的重要程度來裁剪模型，最終確定了實時版模型的結構。

效果產品團隊也參與模型效果調優，總結出參數與效果之間的定量關係，通過微調參數優化模型。最終，這個爆款終於誕生。

實時變身漫畫難點多，如何攻克？

「變身漫畫」最吸引人的地方之一，就是它的實時變換。

那麼，與靜態圖片處理相比，實現實時漫畫處理究竟難在哪裏呢，尤其是在手機端實現？

抖音技術團隊表示，實時視頻漫畫處理難度還是挺高的，比如：

首先，模型本身計算量需要非常小，在有限的計算量下要達到比較好的漫畫效果，需要讓每一次運算都要充分發揮其價值；
其次，抖音的用戶衆多，用戶使用的機型性能差距也非常大，需要專門研發複雜、定製化的模型下發策略。

爲了滿足不同層次用戶的需求，抖音研發了複雜的模型下發策略，實現了模型的定製化下發，這在最終保證了實時漫畫的成功上線，在效果和性能方面達到實時漫畫的要求。

此外，抖音漫畫特效啓用了字節跳動自研的推理引擎 ByteNN。這個針對端側算法快速落地的推理引擎，不僅支持 CPU 和 GPU 的通用計算能力，也充分發揮了廠商 NPU/DSP 硬件的加速能力，保證了實時漫畫能夠穩定支持抖音海量的用戶羣體。

當然，這個實時漫畫特效，目前的算法針對一些特殊場景還是有一定優化空間，在之後的迭代中也會從模型本身和推理引擎兩個方面入手，提升模型效果的同時優化推理性能。

字節跳動影像團隊：漫畫濾鏡既要像，還得美

近年來，將影像進行漫畫、手繪風格的特效也是層出不窮，如何脫穎而出成爲爆款，這是團隊所面臨的難題。

根據字節跳動影像團隊的大彭的說法，最關鍵的，就是要給用戶帶來驚喜和共鳴。

「變身漫畫」特效團隊一方面，實現了既「像」又「美」，另一方面，通過技術的不斷打磨，實現了千人千面的實時變換效果。

項目組的玉辰說，「我們定義了『精緻美』和『極致像』兩大特點。既要全面保留用戶特徵、像本人，又要生成出漫畫獨有的藝術美感。」

此外，團隊結合日漫、國漫、韓漫中形象中的特長，設計出了最終版的漫畫，審美獲得了廣泛認可。

變身漫畫特效：早期版本（上）與最終版本（下）對比

在玩法上，團隊最終選取了 6 個道具創意，比如用手滑動、點頭等變換方式，改善交互體驗，照顧到了不同年齡、層級和喜好的用戶需求。

GAN：圖像生成領域的重要法寶

我們說回這個爆款的基礎技術——GAN（Generative Adversarial Networks ）生成式對抗網絡。

近年來，基於 GAN 的研究如火如荼。每次刷屏的圖像生成、轉換的研究成果背後，幾乎都離不開 GAN 技術。

2014 年，Ian Goodfellow 及其團隊，於 2014 年發表的論文《Generative Adversarial Networks》中，開創性地提出一種深度學習模型 GAN。

出生於 1985 年的 Ian Goodfellow

爲蘋果特別項目組機器學習負責人、前谷歌大腦科學家

GAN 模型的主要結構包括生成器 G（Generator）和判別器 D（Discriminator）。該模型的訓練則是處於一種對抗博弈狀態中的。

運用對抗博弈思想，在訓練過程中，生成器 G 的目標就是儘量生成真實的圖片去欺騙判別器 D。而 D 的目標就是儘量把 G 生成的圖片和真實的圖片分別開來。這樣，G 和 D 便構成了一個動態的「博弈過程」。

最終博弈的結果呢？就是在理想狀態下，G 可以生成足以「以假亂真」的圖片。

通俗地來說，G 就像是一個藝術品贗品製作者，想方設法騙過鑑別器 D，最終得到一個正品贗品難以分辨的作品。

近年來，GAN 的應用可以說非常豐富了。比如，用來生成動漫人物：

2017 年，來自復旦、同濟等大學的團隊

打造出基於 GAN 的動漫人物頭像生成器

利用 CycleGAN 進行圖像轉換：

基於 CycleGAN 的圖像轉換，真實照片變成各種繪畫風格

2018 年英偉達提出的 StyleGAN，生成的假肖像圖：

此研究結果當時一發布，便震驚國內外

資料來源：

https://mp.weixin.qq.com/s/lLfp8F6G2uHxYpCMCF1Tmw

https://mp.weixin.qq.com/s/WeZD__I7Y98Fg18pEZ9L9g

—— 完 ——

掃描二維碼，加入討論羣

獲得更多優質數據集

瞭解人工智能落地應用

關注頂會&論文

回覆「讀者」瞭解詳情

更多精彩內容（點擊圖片閱讀）

50 億次播放，1700 萬人參與的「變身漫畫」，抖音團隊接受 CSDN 採訪

全球首個 L3 級自動駕駛國際法規，已由聯合國發佈

上海嘉定上線自動駕駛網約車，《央視新聞》朱廣權官方種草

Lyft 發佈最大 L5 自動駕駛預測數據集

《人民日報》刊登時評：《壯大國產工業軟件，堅定自主創新信念》

Lyft 發佈最大 L5 自動駕駛預測數據集，發起運動預測競賽

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結