【DA】Deep Visual Domain Adaptation: A Survey(持续更新ing)


在Transfer Learning中,Domain Adaptation只是其中的一个子课题,但是目前是非常火的应用领域,所以就将这个方向做了一个大致的了解。主要参考的论文:Deep Visual Domain Adaptation: A Survey;同时,推荐一个和这篇论文相关的bilibili视频:深度迁移学习综述,这是文章作者录课的视频,讲的非常好;此外,在知乎上有一个基于此论文的系列综述,也一并推荐个大家种豆南山下:Deep Domain Adaptation论文集

【敲黑板!!!】重点!!!本篇论文主要有四个贡献

  • 首先,根据定义两个域如何分歧的数据属性,提出不同深度域适应场景的分类。
  • 其次,基于训练损失将深度域适应方法概括为几个类别,并分析和比较这些类别下的最新方法。
  • 第三,概述了超越图像分类的计算机视觉应用,例如人脸识别,语义分割和对象检测。
  • 第四,强调了当前方法的一些潜在缺陷和未来的几个方向。
    在这里插入图片描述

1. DA Overview

DA根据不同的的域分歧(distribution shift或者feature space difference)可以分为同构DA(homogeneous DA)和异构DA(heterogeneous DA)。而根据在目标域上有无标签可以分为supervised DA、semi-supervised DA和unsupervised DA。根据迁移的次数,可以分为one-step DA和multi-step DA。
(备注:在传统的机器学习中,我们将训练集和测试集都没有标签的场景下称之为无监督学习,在TL中,对无监督学习做了进一步的理解和定义,只要在目标域上是无标签的,即为无监督DA,半监督/完全监督同理)
在这里插入图片描述

  • Homogeneous DA——同构DA:
    满足条件: 1)Feature spaces are identical,特征空间相同;2)the same dimension,类别空间相同
    因此,homogeneous DA的不同之处在data distribution;
    (1) supervised homogeneous DA——有监督的同构DA:目标域上是有标签的;
    (2) semi-supervised homogeneous DA——半监督的同构DA:有限的标记数据和冗余的无标记数据,这种情况下可以允许网络学习到目标云上的结构信息;
    (3) unsupervised homogeneous DA——无监督的同构DA:无标签但足够的目标域数据;

  • Hetergeneous DA——异构DA:
    满足条件: Feature spaces or dimension are different,特征空间或者类别空间不同,或者两者都不同,根据目标域有无标签分类和同构DA相同⬆️。

2. Approaches of Deep DA

在本文中,我们将重点放在狭义的定义上,并讨论如何利用深度网络来学习带有额外训练准则的“良好”特征表示。

2.1 Categorization of One-step DA

在这里插入图片描述
对于one-step DA方法可以分为三类:基于差异的DA(Discrepancy-based)、基于生成的DA(Adversarial-based)和基于重构的DA(Reconstruction-based)。
在这里插入图片描述

2.1.1 Discrepancy-based DA:基于差异的DA

基于差异的DA,主要是fine-tune,主要分为类准则(Class Criterion)、统计准则(Statistic Criterion)、结构准则(Architecture Criterion)和几何准则(Geometric Criterion)。
在这里插入图片描述
(1)类准则(Class Criterion):使用类标签信息作为在不同域之间传递知识的指南。标签在目标域可用时,软标签(Soft-label)和度量学习(Metric learning)是有效的;标签在目标域不可用或者部分可用时,伪标签(Pseudo labels)和属性表示(Attribute representation)是有效的;
(2)统计准则(Statistic Criterion):使用某些机制调整源域和目标域之间的统计分布偏移。最常用的方法是比较和减小distribution shift,例如:MMD、CORAL、KL散度、H散度等。
(3)结构准则(Architecture Criterion):旨在通过调整深度网络的体系结构来提高学习更多可转让功能的能力。例如,自适应的BN、弱相关的权重和域指导的dropout等。
(4)几何准则(Geometric Criterion):根据源域和目标域的几何特性桥接它们。该标准假设几何结构的关系可以减少域偏移。

2.1.2 Adversarial-based DA:基于生成的DA

用于对数据点是从源域还是目标域中进行分类的域区分符用于通过对抗性目标鼓励域混淆(Domain confusion),以最大程度地减少经验源与目标映射分布之间的距离。主要分为生成方法(Generative Models)和非生成方法(Non-Generative Models)。
(1)Generative Models:通常将基于生成对抗网络(GAN)的判别模型与生成成分相结合。 一种典型情况是使用源图像或噪声矢量来生成与目标样本相似的模拟样本,并保留源域的注释信息。
(2)Non-Generative Models:特征提取器不是使用输入图像分布来生成模型,而是使用源域中的标签来学习判别表示,并通过域混淆损失将目标数据映射到同一空间,从而得到域不变的表示。

2.1.3 Reconstruction-based DA:基于重构的DA

假设源或目标样本的数据重构可有助于提高DA的性能。 重构器可以确保域内表示的特异性和域间表示的可分辨性。
(1)Encoder-Decoder Reconstruction:使用堆叠式自动编码器(SAEs);
(2)Adersarial Reconsruction:重建误差(reconstruction error)是通过GAN鉴别器获得的循环映射(cyclic mapping),测量为每个图像域内的重建图像和原始图像之间的差异;

2.2 Categorization of Multi-step DA

在这里插入图片描述
multi-step DA的关键是选择和利用中间域, 对于multi-step的方法主要分为3类,手工选取(Hand-crafted)、基于实例的选择机制(Instance-based)和基于表示的选择机制(Representation-based)。

2.2.1 Hand-crafted:手工选取

手工选取(Hand-crafted):基于人工经验来选择中间域;例如,当源域是图像数据而目标域是由文本数据组成时,某些带注释的图像将明显地作为中间域数据进行使用。

2.2.2 Instance-based:基于实例的选择机制

基于实例的选择机制(Instance-based):从辅助数据集中选择数据的某些部分以构成中间域以训练深度网络;在存在许多候选中间域的其他问题中,应考虑一些自动选择标准。 例如,DDTL中提出的实例转移方法类似,由于无法直接使用源域的样本,因此源数据和目标数据某些部分的混合对于构造中间层可能很有用。

2.2.3 Representation-based:基于表示的选择机制

基于表示的选择机制(Representation-based):通过冻结先前训练的网络并使用其中间表示作为新网络的输入来启用传输;基于表示的方法将冻结先前训练的网络,并将其中间表示用作新网络的输入。为了避免目标模型失去解决源域的能力,他们为每个域构造了一个新的神经网络,同时通过横向连接到先前学习的网络的功能来启用传输。在此过程中,最新网络中的参数将被冻结以记住中间域的知识。

3. Application of Deep DA

本文中主要介绍的Deep DA应用的场景主要是:Image Classification Because(图像分类)、Face Recognition(人脸识别)、Object Detection(目标检测)、Semantic Segmentation(语义分割)、Image-to-Image Translation(图像转化)、Person Re-identification(行为重识别)和Image Captioning(看图说话)等。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章