史上最佳GAN被超越!生成人脸动物高清大图真假难辨

  不得了,以生成逼真假照片出名、被称作“史上最佳GAN”的BigGAN,被“本家”踢馆了。

  挑战者同样来自Google DeepMind,其新鲜出炉的VQ-VAE二代生成模型,生成出的图像,号称比BigGAN更加高清逼真,而且更具有多样性!

  不服气?那先看看这些假照片作品。

  浓眉大眼的棕发妹子,与歪果仁大叔:

  


  在Top-1准确率测试上,VQ-VAE二代比BigGAN成绩多出了16.09分。

  DeepMind负责星际项目、也是这项研究的作者之一Oriol Vinyals表示,VQ-VAE二代简直令人惊讶,如此简单的想法竟然能够产生如此好的生成模型!

  甚至……连曾经也推出过逼真假脸的英伟达员工:英伟达研究院的高级研究科学家Arash Vahdat,也在研究推特下评价:

  令人印象深刻啊!!!

  短短几小时,这项研究在推特上收获了500多赞,以及上百次转发。

  弥补了GAN的缺点

  VQ-VAE-2可以理解成一个通信系统。

  其中有编码器,把观察到的信息映射到一组离散的潜变量 (Latent Variables) 上。

  还有×××,把这些离散变量中的信息重构 (Reconstruct) 出来。

  系统分成两部分,都是由编码器和×××构成的。

  第一部分

  它是一个分层的VQ-VAE,可以把不同尺度的信息分开处理。

  比如,输入一张256×256图像,编码器要把它压缩进不同的潜在空间里:

  顶层 (Top Level) 要压缩成64×64的潜在映射图,为**全局信息 (比如形状等) 生成潜码;

  底层 (Bottom Level) 要压缩成32×32的潜在映射图,为局部信息(比如纹理等) 生成潜码。

  然后,×××用这两个潜在映射图 (Latent Maps) 中,做出一张与原图同样大小的重构图,其中包含了局部和全局信息。

  团队发现,如果不用顶层来调节 (Condition) 底层,顶层就需要编码像素中每一个细节。

  所以,他们就让每个层级分别依赖于像素 (Separately Depend on Pixels) :可以鼓励AI在每个映射图中,编码补充信息 (Complementary Information) ,降低重构误差。

  而学到分层潜码(Hierarchical Latent Codes) 之后,该进入下一部分了:

  第二部分

  在从潜码中学到先验(Prior) ,生成新图。

  这一部分,是二代与一代最大的区别所在:把一代用到的自回归先验 (Autoregressive Priors) 扩展、增强了。

  用当前最优秀的PixelRNN模型来为先验建模,这是一个带自注意力机制的自回归模型,能够把先验分布 (Prior Distribution) ,和上一部分学到的边界后验 (Marginal Posterior) 匹配起来。沈阳治疗外阴白斑中医院:http://mobile.lvprco.com/

  这样,可以生成比从前相干性更高,保真度也更高的图像。

  和第一部分相似:这里也有编码器和×××,可以进一步压缩图像。

  做好之后,从先验里取样,可以生成新的图像:和原图清晰度一致,并且保持了相关性 (Coherence) 。

  两个部分合在一起,可以把256×256的图像,压缩200倍来学习;把1024×1024的高清大图,压缩50倍来学习。

  团队说这样一来,把图像生成速度提升了一个数量级。

  在需要快速编码、快速解码的应用上,这样的方法便有了得天独厚的优势。

  同时,还避免了GAN的两个著名缺点:

  一是mode collapse,即生成某些图像之后,GAN的生成器和判别器就达成和解,不再继续学习了;二是多样性不足的问题。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章