研究生论文之基于图像特征的条件对抗式生成网络

前言:

前段时间看到CVPR上的一篇论文《Y-Autoencoders: disentangling latent representations via sequential-encoding》,其主要创新在于使用Autoencoders进行图像翻译也即是(image-to-image),感觉和自己研一时投的论文目标一致,都是想用Autoencoders进行图像合成。所以就分享一下自己的论文吧。关于Y-Autoencoders的原理可以参考我的的这篇博客

 

Autoencoders的架构:

首先我们图一所示的原始的Autoencoders的网络的架构吧。从中我们可以看到Autoencoders一个重要的特点(输入图像和输出图像结果一样),输入图像首先因果一系列的卷积操作之后得到一个隐层特征,然后隐层特征经过一系列的反置卷积操作得到恢复后的图像,最后使用均方误差计算恢复后的图像和原始图像之间的损失值。既然生成图像和原始图像一致那么是不是网络就没有意义了。其实不然我们可以看到Autoencoders中包含一个隐层特征。这个特征能够用于恢复图像,而且比原始数据要小的多。所以一般Autoencoders用于图像压缩方面。

图一
标题

 

F-Autoencoders的架构:

严格意义上来说我这篇论文并不能算得上Autoencoders,当时的定位是使用图像的隐层特征而不是随机的高斯噪音向量进行图像合成,当时认为我这种方法的话,会加快图像合成的速度。因为相对于从随机噪音到真实图像分布,使用图像对应的隐层特征到真实空间肯定会更快的,思想如图二所示。但是后来的投稿的时候别人指出这种方法的会限制GAN的使用范围。也即是之前的GAN是随机向量所以生成图像有无数种,但是我的方法每次生成图像时需要对应的有一个输入图像。

 

图一
图二

 

 

F-Autoencoders的架构如图三所示

首先为了保证保证编码器得到的隐层特征有意义,我做了和Y-Autoencoders相同的操作,也即是编码器不仅输出隐层特征还要输出图像类别信息,保证编码器输出的隐层特征是有意义的。

然后选择一个随机的标签和对应的隐层特征结合,一起放到解码器之中,合成一张图像。

最后定义一个鉴别器,其首先要保证生成的图像能够被判断为真,而且要保证图像对应的类别要和随机标签的类别一致。

但是最后发现一个问题,在mnist上很容易实现这种转化,但是在celebA上这种操作确实很难。当时的猜想是解码器得到的隐层特征很接近,所以只是通过标签的调节不同类别之间的图像的转化很困难。所以当时就放弃了。哈哈哈哈。但是Y-Autoencoders通过增加了三个额外的所示函数就将上述问题解决了。确实挺好的。

图三

 

 

发布了99 篇原创文章 · 获赞 75 · 访问量 7万+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章