一键高清还原老照片:全方位解读美图影像实验室MTlab人像画质修复技术

近日,美图影像实验室MTlab针对低清画质推出高效的人像画质修复算法,轻松解决图片被压缩,亦或是由于夜拍、抓拍或是抖动造成的照片模糊、失焦等问题。美图人像画质修复算法在自研的超清人像生成网络结构 BeautyGAN(Beauty Generative Adversarial Networks)基础上,从美图数以亿计的海量人像数据中学习,使其具备人像画质修复能力,最大程度还原人像原有的脸部信息,重新定义低清画质的宽容度(Portrait Redefinition)。本文将对这一人像画质修复算法进行深入解读。

左:原图,右:修复结果

一、导语

日前,林青霞的一组复古照片在各大社交媒体平台引起了广泛关注与热议,成功将“AI老照片修复”带入大众视野,也让更多人近距离感受到黑科技的魅力所在。由于早期拍摄设备的配置有限,手机像素比较低,又或是图片经过多次的网络转载和压缩,使得很多老照片画质受损严重,清晰度较差。而随着AI的不断发展,尤其是生成技术的发展,使智能修复老照片成为可能。老照片往往承载着许多回忆,甚至是许多人的情感寄托,然而模糊老旧的照片已经无法满足用户日趋严格的审美需求。为了解决这一痛点,美图影像实验室MTlab作为美图核心技术研发部门,推出了人像画质修复技术,通过便捷的一键操作就能高清还原老照片中的人像。事实上,除了老照片修复外,还可以修复的场景包括模糊、失焦、压缩等各类低清人像画质照片。

借鉴前沿的深度学习技术,如降噪、增强、超分、强化学习等,在生成网络的基础上,结合大量的对抗式生成网络的前沿技术,进一步加强了美图影像实验室MTlab自研的生成网络结构 BeautyGAN的生成能力。美图凭借自身强大的数据基础,使BeautyGAN具备良好的人像修复能力,最大程度还原人像原有的脸部信息。通过网络结构和训练方案的不断优化,提高修复的效率,让用户无需等待,数秒内即可看到人像修复的结果。

二、人像画质修复完整流程

针对一张待修复的图片,一般分两步来处理。首先利用人脸点抠取脸部,对脸部做修复,使其变清晰;其次对全图进行去彩噪、去噪、去马赛克、去jpeg压缩、去模糊、去轻微抖动等画质修复操作,从而达到画质增强的效果。

分辨率比较高的图片在进行全图去噪等操作时,耗时较为严重。为了提高计算效率,美图影像实验室MTlab会将待修复图缩小到一定尺度,再进行分块、去噪等修复操作。最后通过guided-filter网络结构的画质增强方案恢复为原始分辨率。上述脸部修复和全图修复(全图修复包括低分辨率修复和高分辨率增强)并行完成后,将修复后的脸部贴回原图,合成完整的修复图。再利用超分网络,最终使得画质整体变得更加清晰。完整修复图如图(1)所示。


图(1) 画质修复流程

三、画质增强

前已述及,对于分辨率比较高的图,直接进行去噪等操作存在占用内存或显存高等问题,进而导致计算效率低下。因此,把原图缩小到一定尺度进行低分辨率修复如去噪、去模糊等,将会大幅提升处理效率。在低分辨率修复完成后,借助Wu等人[1]提出的DGF网络结构(Deep Guided Filtering Network),恢复为原始分辨率或放大为更大分辨率的图。

比如,一张1280尺度的图片,缩小到640尺度进行去噪、去模糊等修复,得到640尺度的修复结果,通过DGF网络结构恢复为原始1280尺度的分辨率,但实际上若想变为更大尺度1920的分辨率,可以把原1280尺度的图片先用立方插值放大为1920(此时放大的结果会变糊),然后利用640尺度修复结果加上DGF网络结构,可以让1920尺度的图片实现去噪、去模糊等修复效果的同时,在1920尺度上变得更清晰。即通过低分辨率修复模块和DGF网络结构,可以让1280尺度的图片放大为1920尺度分辨率的图片。


图(2) DGF画质增强网络结构及ResBlock使用方式

其中,IH表示高分辨率的原始图片,IL表示IH缩小到一定尺度的低分辨率图片,OL表示低分辨率图片IL修复结果,DGF网络结构具体参数含义可参考对应文献[1],OH0表示DGF网络结构输出的结果。

但单纯的DGF网络结构做画质增强,会丢失一些细节,因此需要将DGF得到的结果OH0,和原始分辨率的图IH,通过concat的方式,再经过若干个ResBlock(通道数4/8通道即可),从而得到最终画质增强的结果OH。以下是全图修复(含脸部修复)示例:


图(3) 左:原图,右:修复结果


图(4) 左:原图,右:修复结果


图(5) 左:原图,右:修复结果

四、人脸修复

人脸修复具体包括人脸裁框和脸部生成修复。

1.人脸裁框

舍弃了以往单纯利用眼睛间距来裁切人脸的方式,而采用最小包围盒矩形框来裁切人脸,具体步骤为:

(a)通过目前成熟的基于CNN的人脸检测和人脸对齐方法获得图像中的人脸点集FP,计算其外接矩形,向外拓展得到人脸的裁切矩形。

(b)通过人脸的裁切矩形,获得人脸的旋转角度,从原图中裁取摆正后的人脸图像F。

2.生成网络的设计

由于人脸特有的分布特征,使得其在生成网络结构中能够学习到人脸的共性,由此产生了很多人脸生成的网络结构以及一系列特殊的训练方法,但人脸生成存在五官变形、丢失遮挡(如手、刘海等)信息等,使得DL生成的人脸和真实人脸存在较大差距,肉眼可见是假脸。但StyleGAN[2]的出现解决了这个问题,能够生成一张逼真的人脸,肉眼看不出和真实人脸的差别。其借用图像风格迁移,让生成式网络能够生成一张逼真的人脸。但其仅仅只是生成一张随机的逼真人脸,并不能直接实现一对一的脸部修复,于是需要为其设计encoder-decoder的网络形式。同时为了复用encoder的featuremap,保留脸部的五官特征,避免发生变形,需要将其和decoder对应大小的featuremap连接起来。区别于以往采用加的连接形式,改成concat的方式,可保留encoder结构的部分featuremap,避免脸部严重变形或者丢失脸部遮挡(如手、刘海等)的信息。具体的网络结构如下图所示:

输入一张大小为sxs的图,经过五次下采样,得到一张大小s32xs32的featuremap,再经5次上采样,修复生成一张大小为sxs的修复脸部图。


图(6) 人脸修复基本网络

3.构造生成器

为加强BeautyGAN的生成能力,借助StyleGAN的训练方式,对于生成网络,我们首先训练decoder的生成能力,即输入一个大小为s32xs32的随机向量,通过逐层的上采样加上concat的随机向量,最终生成一张sxs大小的人脸,保证生成的人脸看不出真假。以往一些生成网络获得的人脸往往跟真实人脸有差距,一看就是假脸,但结合StyleGAN的训练方式,可以让生成网络得到的人脸逼近真实的人脸,肉眼几乎看不出差别。


图(7) decoder网络训练结构

对上述decoder网络结构作生成器(generator),加上判别器(discriminator)构建GAN网络结构,即美图影像实验室MTlab改进研发的gan网络结构——BeautyGAN。其中,concat处每次迭代时都生成一个跟相应层featuremap大小一致的随机向量,提高decoder的生成能力。

当decoder结构训练稳定具备生成人脸的能力后,和encoder结构合并,进行整个网络结构的训练,让encoder部分的学习率高于decoder部分的学习率,同时控制好判别器的学习率。以下是部分修复示例:


图(8) 左:原图,右:修复结果


图(9) 左:原图,右:修复结果

五、结语

随着拍照场景需求的日渐多样化,如夜拍(模糊、噪点多)、抓拍(曝光时间短,画质差)等,用户对于画质修复的要求也越来越高。为了满足用户丰富的场景使用需求,美图影像实验室MTlab研发了人像画质修复的深度学习算法,帮助用户修复低清画质的清晰度,解决不同场景对于画质清晰度的拍照需求。目前,该技术已成功应用在美图秀秀中。当然,目前的生成网络还存在一定的问题,MTlab研发人员未来将致力于研发更加有效的训练方法,充分发挥其在图像修复上的技术优势,攻克技术难点,提高人像处理能力,为用户提供更好的拍照体验。

参考文献:

[1] H. Wu, S. Zheng, J. Zhang, and K, Huang. Fast End-to-End Trainable Guided Filter. CVPR, 2018.

[2] T. Karras, S. Laine, and T. Aila. A Style-Based Generator Architecture for Generative Adversarial Networks. CVPR, 2019

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章