论文阅读记录 51-100篇 20200316-

  1. 2020-3-19
    DRIT++: Diverse Image-to-Image Translation via Disentangled Representations
    IJCV2020 multi-domain multi-modal instance-level
    DRIT的期刊版,非常强。这里全部总结下。对于两个域,共用content,style服从先验分布。(1)content用一个D对抗使其混淆;交换两次,对偶重构;自重构;style要来一次info回归;两个判别器保持真实;KL散度作用于style E。(2)对于多域;统一用一个G,D,style E和content E,用onehot编码,类似stargan。生成器和判别器ACGAN;content对抗、一次和二次重构,info回归、style KL散度仍用。多属性style E的输入还包含domain;(3)一个启发性的亮点,让不同style的图片距离尽量大,类似StarGAN v2.(公式截图)。
    https://github.com/lzhbrian/image-to-image-papers IJCV
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

  2. 2020-3-19
    Multimodal Unsupervised Image-to-Image Translation
    ECCV2018 MUNIT 两个域,multi-modal, instance-level
    以前读过,很经典的文章了。这里回顾总结下。(1)两个域,每个域解开style和content,style都服从先验分布,content共享。两个E,两个G,两个D。(2)loss很简洁,L1自重构;交换content后,content和style都生成再打开,回归一边,类似infogan;再gan保持真实。文章理论分析了达到最优后,两个域c和s都在同一个分布。(3)用了AdaIN
    经典文章
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

  3. 2020-3-18
    Multi-mapping Image-to-Image Translation via Learning Disentanglement
    Nips2019 DMIT disentangle,多域,multi-modal
    很强的工作Mark。(1)多域共享一个风格编码空间,和内容编码空间。这两个内容分别用两个编码器解出来。注意所有域share同样的编码器。(2)训练过程分为两个部分,D-Path部分,将一张图先解开,再合上。风格编码服从正态分布,VAE来一套。InfoGAN的回归也引入。为了让多域Content混淆在一起,引入了一种很神奇的CGAN,把一个域的label和其他域的content编码判真,该label和本域content判假。(好像是这样,可能不太对)这样会让不同域的content不断不断接近。(3)T-Path部分,给content,采样label和style,生成后解开。Infogan的回归约束content和style。CGAN让生成图加上类别并保持真实。
    https://github.com/lzhbrian/image-to-image-papers 未分类(应该算是disentanglement)
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

  4. 2020-3-18
    Image-to-Image Translation with Multi-Path Consistency Regularization
    IJCAI2019 多域互转. 人脸、艺术图、去雨三个数据集
    提出了multi-path consistency,也即从A->B和从A->C->B,要保持一致。把这个约束加在stargan和cyclegan上两种架构上。认为这个约束能减小noise,生成更一致的图片。为了做两个域,需要引入一个辅助域,例如去雨,可以把噪声图片当作中间域;去噪,可以把雨当作中间域。(这么搞真的靠谱嘛。。。因为引入了6个域)
    https://github.com/lzhbrian/image-to-image-papers unsupervised multi-domain
    在这里插入图片描述
    在这里插入图片描述

  5. 2020-3-17
    Augmented CycleGAN: Learning Many-to-Many Mappings from Unpaired Data
    ICML2018 两个域互转,multi-modal AugCCGAN
    在cyclegan基础上,引入标准高斯分布的noise,两个g都有。(1)为了让noise发挥作用,引入两个Encoder,输入一张A域和一张B域图,预测把A域转B域需要什么样的noise。这样可以合理地做图片cycle loss。(2)为了让E的预测符合先验,和高斯先验对抗。(3)另外,给一个B域noise,先从A域生成到B域图,然后用E预测B域noise,约束一致。原理同infogan。(4)如果有paired数据,可以从一个pair中预测noise,然后translation。是一个可选的有监督约束。(5)noise的注入方式为CIN(conditional IN),没有直接concatenate
    https://github.com/lzhbrian/image-to-image-papers Unsupervised multi-domain
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

  6. 2020-3-17
    Attribute-Guided Face Generation Using Conditional CycleGAN
    ECCV2018 早期,人脸编辑或身份编辑。模糊、清楚两个域 ConditionalCycleGAN
    大致上cyclegan。两个D和G,一个模糊域,一个清晰域。(1)为了属性编辑,从模糊到清晰,用了cgan的结构。反之没有,我觉得这里其实有问题。从模糊到清晰再到模糊的后半段cycle怎么保证生成属性和模糊一样?(2)为了身份编辑,用LightCNN提取256维身份编码,从模糊到清晰的编辑输入该信号。输出也用LightCNN过一遍,拿到身份编码的L1 identity loss. 一个亮点是该方法的人脸编辑看上去很instance,而且能做很多任务,包括人脸交换、人脸转正等。
    https://github.com/lzhbrian/image-to-image-papers Unsupervised multi-domain
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

  7. 2020-3-16
    Semantic Image Synthesis with Spatially-Adaptive Normalization
    CVPR2019 semantic map 2 image SPADE
    提出Spatially-Adaptive,在semantic mask上通过网络层得到均值和方差map(不是一个标量,也即和Contitional BN的区别),然后把它用于偏移noise上。另一个点是可以训一个encoder解出一张图片的noise充当style,实现instancle-level style reference。其他几乎同pix2pix-HD
    https://github.com/lzhbrian/image-to-image-papers Supervised
    (下图ii表示第ii层)
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章