论文标题
A survey on Semi-, Self- and Unsupervised Techniques in Image Classification
文章目录
- 概念解释
- 技术
- Consistency regularization
- Virtual Adversarial Training (VAT)
- Mutual Information (MI)
- Entropy Minimization (EntMin)
- Mean Squared Error (MSE)
- Overclustering
- Pseudo-Labels
- 方法
- 半监督
- Fast-Stochastic Weight Averaging (fast-SWA)
- Mean Teacher
- MixMatch
- π-model and Temporal Ensembling
- Pseudo-Labels
- Self-SupervisedSemi-SupervisedLearning(S4L)
- Unsupervised Data Augmentation (UDA)
- Virtual Adversarial Training (VAT)
- 自监督
- Augmented Multiscale Deep InfoMax (AMDIM)
- Contrastive Predictive Coding (CPC)
- DeepCluster
- Deep InfoMax (DIM)
- Invariant Information Clustering (IIC)
- Representation Learning - Context
- Representation Learning
- 无监督
- 比较
概念解释
unsupervised
输入只有样本没有标签,损失函数需要的一切参数都由输入样本生成
semi-supervised
输入的样本有一部分是有标签的,另一部分没有标签,通常损失函数=有监督损失函数+无监督损失函数
self-supervised
首先对无标签数据进行pretext task,在进行微调的时候需要用到有标签数据
weakly-supervised
周志华教授综述
弱监督的概念包括三种:有部分标签(半监督)、有粗糙的标签、有错误的标签
metric-learning(or相似度学习)
拐个弯,比如后面介绍到的通过对旋转角度、相对位置等的学习来实现对图片内容理解的学习
技术
Consistency regularization
在半监督中,这个技术作为一种额外添加的损失函数与有监督的损失函数并行训练
在自监督和无监督中可以只使用这种技术作为损失函数训练
Virtual Adversarial Training (VAT)
文献:Virtual adversarial training: a regularization method for supervised and semi-supervised learning
x是某一个数据,f(x)是网络输出,D是距离的度量,P是概率分布,radv是使D最大时的r
Mutual Information (MI)
文献:Elements of information theory
通过令P(f(x))=P(f(y))来平衡使熵最大化和使条件熵最小化的影响
Entropy Minimization (EntMin)
文献:Semi-supervised learning by entropy minimization
They minimized the entropy H(P f(x) ) for all probability distributions P f(x) based on a certain neuraloutputf(x) for an image x
Mean Squared Error (MSE)
Overclustering
**文献:Deep clustering for unsupervised learning of visual features. **
相对于有监督方法中的k个classes,在无监督方法中则使用k个clusters
Pseudo-Labels
文献:Pseudo-label: The simple and efficient semi-supervised learning method for deep neural networks.
把预测的结果当作伪标签再进行训练
方法
半监督
Fast-Stochastic Weight Averaging (fast-SWA)
文献: There are many consistent explanations of unlabeled data: Why you should average
不修改损失函数而是优化算法,即平均或者循环学习率
Mean Teacher
文献: Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results
根据每个更新步骤中学生模型的平均权重来使用教师模型。
MixMatch
文献:Mixmatch: A holistic approach to semi-supervised learning
- 损失函数=CE(有监督)+预测和伪标签的MSE(无监督)
- 使用一种基于多重预测的锐化方法提高伪标签的质量
- 将样本(包括标签的整合)参数化整合在一起
π-model and Temporal Ensembling
文献:Temporal ensembling for semi-supervised learning
- 损失函数=CE+MSE
- MSE的输入(网络对随机一张优化图片的输出, π-model使用同一张优化图片|Temporal Ensembling使用之前预测输出的指数移动平均)
Pseudo-Labels
文献:Pseudo-label: The simple and efficient semi-supervised learning method for deep neural networks.
Self-SupervisedSemi-SupervisedLearning(S4L)
文献:S4l: Self-supervised semi-supervised learning.
损失函数=CE+基于旋转和范例预测的自监督方法的损失函数
Unsupervised Data Augmentation (UDA)
文献:Unsupervised data augmentation for consistency training
使用AutoAugment,Cutout(随机挑选图片mask),伪标签用于过滤无监督数据的异常值等技术
Virtual Adversarial Training (VAT)
文献:Virtual adversarial training: a regularization method for supervised and semi-supervised learning
自监督
Augmented Multiscale Deep InfoMax (AMDIM)
文献:Learning representations by maximizing mutual information across views
- 从同一张图片的不同增强中采样
- 从多尺度的采样中最大化MI
Contrastive Predictive Coding (CPC)
文献:Representation learning with contrastive predictive coding
损失函数为InfoNCE,从负面的结果中随机采样中确认正确的预测来定义预测的质量
DeepCluster
文献:Deep clustering for unsupervised learning of visual features
利用k聚类算法生成标签
Deep InfoMax (DIM)
文献: Learning deep representations by mutual information estimation and maximization
对局部图像区域进行MI最大化(AMDIM是DIM的扩展)
Invariant Information Clustering (IIC)
文献: Invariant information clustering for unsupervised image classification and segmentation
考虑增强前后的图像信息保持不变性,对图像增强视图之间的MI进行最大化,使用类分布而不是输出分布。
Representation Learning - Context
文献:Unsupervised visual representation learning by context prediction
把图片分割成具有相对位置的分块,通过学习分块之间的相对位置实现对图像内容理解的学习
Representation Learning
Exemplar
文献:Discriminative unsupervised feature learning with exemplar convolutional neural networks
通过学习各种增强图像和原图像之间的对应关系实现图像分类
Jigsaw
文献:Unsupervised learning of visual representations by solving jigsaw puzzles
- 图片被分割成多块,网络需要从这些patch中学习图片中物体的类别,最后用有标签数据进行微调
- Jigsaw++则是在多块patch中加入错误的patch
Rotation
文献:Unsupervised representation learning by predicting image rotations
随机对图片进行多个角度的旋转,然后让网络学习识别出旋转角度从而实现理解图片信息,最后用有标签数据进行微调
无监督
Deep Adaptive Image Clustering (DAC)
文献: Deep adaptive image clustering
首先计算各个聚类的余弦相似性,再利用这个余弦相似性对输入图片进行两两分类
Invariant Information Clustering (IIC)
IIC可以不通过有标签数据进行微调,因此也算作无监督方法
Information Maximizing Self-Augmented Training(IMSAT)
文献:Learning discrete representations via information maximizing self-augmented training
最好的增强可由VAT生成,加入一个由原图像和增强图像构成的CE损失函数,使输入输出的MI最大化
比较
数据集
CIFAR-10、CIFAR-100、STL-10、ILSVRC-2012(ImageNet的子集)
Evaluation metrics
有标签
无标签使用集群精度
方法比较
使用技术
说明
- 所有的半监督方法都采用交叉熵损失函数,不使用MI,经常包括VAT、EntMin、MSE
- 所有的自监督方法都使用一个pretext task和有标签微调
- 所有的无监督方法则不包括任何有标签数据
具体如表格所示
性能表现
讨论
趋势一:现实应用
趋势二:必需的监督在减少
趋势三:技术的结合
例如MixMatch和S4L的效果最好,都是综合了多种技术