50 亿次播放，1700 万人参与的「变身漫画」，抖音团队接受 CSDN 采访

By 超神经

内容提要：近年来，各种 P 图、美颜、特效应用都深受用户喜爱。最近，抖音最新推出的「变身漫画」特效又火上了热搜。爆火的背后，有哪些关键技术？

关键词：抖音变身漫画 GAN ByteNN

编辑：神经小兮

内容整理自 CSDN、字节范儿（文末附链接）

最近，抖音上的一款「变身漫画」特效火了，从路人到明星，都忍不住玩儿上一把。

只需一秒，便可看到二次元世界的自己，拥有水汪汪的大眼睛和白皙的皮肤，看上去元气满满。

乘风破浪的万茜姐姐和唱跳 rap 的蔡徐坤都参与了

截止目前，在抖音上已经有 1770 多万用户使用「变身漫画」特效制作了视频，这一系列视频，累积获得 56.7 亿次播放。

一年前的灵感，用 GAN 攻破

虽说这款特效玩起来无门槛，变身仅需一秒，但其实爆款的背后，是抖音影像团队长时间的研发与打磨。

2018 年，字节跳动专门成立了影像团队，支持抖音、火山、轻颜等全系产品的打磨，其中包括长期探索真人风格化玩法，力图持续打造击中用户的特效。

影像特效、工具岗位持续大量招聘

科技媒体 CSDN 第一时间对相关团队进行了采访，我们作了部分引用：

这次推出的「变身漫画」项目，灵感是来自大约一年前的一次脑暴会议。

了解到研发同学在一次脑暴会中，提起「让真人秒变漫画脸」的想法。这一想法让团队都兴奋起来。

说做就做。2019 年 9 月，抖音影像团队迅速拉上协作支持的研发、设计等同事一起参与进来。

抖音这次推出的漫画变身特效主要技术也还是 GAN，但与以往相比也有差异之处，团队在 GAN 的基础上，加入了新的尝试。

实际上，抖音实时漫画特效在最终技术选型之前，曾对比过大量当前生成技术方法，包括生成漫画的方法，如 ugatit，也有做其他任务的方法，如 MUNIT 等。

但经调研发现，当前的 GAN 用于漫画生成、风格迁移等任务存在一些问题。

首先是训练不稳定，其次是超参数进行一些微小的调整，就可能对结果产生很大影响，再者还容易遇到梯度消失的问题。

对此，抖音的改善方案是尝试多种 loss，包括WGAN、LSGAN 等，但目前为止还是没有银弹（意为没有万金油。在软件工程中，银弹一般指可解决复杂问题的简单、奇妙方案），所以需要在实验过程中监控梯度的变化。

连续一两个月，团队都在训练新模型

抖音的技术团队也表示，在漫画视频技术探索过程中，技术团队在初期尝试中屡屡碰壁，在前期预研中，输出版本效果与图片版相差较大，且性能也未能达标。

在几次尝试效果均不理想的情况下，团队内部一度对实时漫画的可行性也出现了怀疑。

但好在几次失败的尝试后，在总结经验时有人指出了关键所在：之前的模型结构单一，不同模型的优缺点不完全一致。

于是，技术团队尝试了模型嫁接的方法，用不同的模块拼接出新模型，大幅提升了漫画的生成质量。

经历长时间打磨，团队成员能轻松分辨各模型的优劣

在质量达标后，又通过计算每层的重要程度来裁剪模型，最终确定了实时版模型的结构。

效果产品团队也参与模型效果调优，总结出参数与效果之间的定量关系，通过微调参数优化模型。最终，这个爆款终于诞生。

实时变身漫画难点多，如何攻克？

「变身漫画」最吸引人的地方之一，就是它的实时变换。

那么，与静态图片处理相比，实现实时漫画处理究竟难在哪里呢，尤其是在手机端实现？

抖音技术团队表示，实时视频漫画处理难度还是挺高的，比如：

首先，模型本身计算量需要非常小，在有限的计算量下要达到比较好的漫画效果，需要让每一次运算都要充分发挥其价值；
其次，抖音的用户众多，用户使用的机型性能差距也非常大，需要专门研发复杂、定制化的模型下发策略。

为了满足不同层次用户的需求，抖音研发了复杂的模型下发策略，实现了模型的定制化下发，这在最终保证了实时漫画的成功上线，在效果和性能方面达到实时漫画的要求。

此外，抖音漫画特效启用了字节跳动自研的推理引擎 ByteNN。这个针对端侧算法快速落地的推理引擎，不仅支持 CPU 和 GPU 的通用计算能力，也充分发挥了厂商 NPU/DSP 硬件的加速能力，保证了实时漫画能够稳定支持抖音海量的用户群体。

当然，这个实时漫画特效，目前的算法针对一些特殊场景还是有一定优化空间，在之后的迭代中也会从模型本身和推理引擎两个方面入手，提升模型效果的同时优化推理性能。

字节跳动影像团队：漫画滤镜既要像，还得美

近年来，将影像进行漫画、手绘风格的特效也是层出不穷，如何脱颖而出成为爆款，这是团队所面临的难题。

根据字节跳动影像团队的大彭的说法，最关键的，就是要给用户带来惊喜和共鸣。

「变身漫画」特效团队一方面，实现了既「像」又「美」，另一方面，通过技术的不断打磨，实现了千人千面的实时变换效果。

项目组的玉辰说，「我们定义了『精致美』和『极致像』两大特点。既要全面保留用户特征、像本人，又要生成出漫画独有的艺术美感。」

此外，团队结合日漫、国漫、韩漫中形象中的特长，设计出了最终版的漫画，审美获得了广泛认可。

变身漫画特效：早期版本（上）与最终版本（下）对比

在玩法上，团队最终选取了 6 个道具创意，比如用手滑动、点头等变换方式，改善交互体验，照顾到了不同年龄、层级和喜好的用户需求。

GAN：图像生成领域的重要法宝

我们说回这个爆款的基础技术——GAN（Generative Adversarial Networks ）生成式对抗网络。

近年来，基于 GAN 的研究如火如荼。每次刷屏的图像生成、转换的研究成果背后，几乎都离不开 GAN 技术。

2014 年，Ian Goodfellow 及其团队，于 2014 年发表的论文《Generative Adversarial Networks》中，开创性地提出一种深度学习模型 GAN。

出生于 1985 年的 Ian Goodfellow

为苹果特别项目组机器学习负责人、前谷歌大脑科学家

GAN 模型的主要结构包括生成器 G（Generator）和判别器 D（Discriminator）。该模型的训练则是处于一种对抗博弈状态中的。

运用对抗博弈思想，在训练过程中，生成器 G 的目标就是尽量生成真实的图片去欺骗判别器 D。而 D 的目标就是尽量把 G 生成的图片和真实的图片分别开来。这样，G 和 D 便构成了一个动态的「博弈过程」。

最终博弈的结果呢？就是在理想状态下，G 可以生成足以「以假乱真」的图片。

通俗地来说，G 就像是一个艺术品赝品制作者，想方设法骗过鉴别器 D，最终得到一个正品赝品难以分辨的作品。

近年来，GAN 的应用可以说非常丰富了。比如，用来生成动漫人物：

2017 年，来自复旦、同济等大学的团队

打造出基于 GAN 的动漫人物头像生成器

利用 CycleGAN 进行图像转换：

基于 CycleGAN 的图像转换，真实照片变成各种绘画风格

2018 年英伟达提出的 StyleGAN，生成的假肖像图：

此研究结果当时一发布，便震惊国内外

资料来源：

https://mp.weixin.qq.com/s/lLfp8F6G2uHxYpCMCF1Tmw

https://mp.weixin.qq.com/s/WeZD__I7Y98Fg18pEZ9L9g

—— 完 ——

扫描二维码，加入讨论群

获得更多优质数据集

了解人工智能落地应用

关注顶会&论文

回复「读者」了解详情

更多精彩内容（点击图片阅读）

50 亿次播放，1700 万人参与的「变身漫画」，抖音团队接受 CSDN 采访

ziw2pdf

apisix~helm方式的部署到k8s

firmeye - IoT固件漏洞挖掘工具

全球首個 L3 級自動駕駛國際法規，已由聯合國發佈

上海嘉定上線自動駕駛網約車，《央視新聞》朱廣權官方種草

Lyft 發佈最大 L5 自動駕駛預測數據集

《人民日報》刊登時評：《壯大國產工業軟件，堅定自主創新信念》

Lyft 發佈最大 L5 自動駕駛預測數據集，發起運動預測競賽

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結