【論文閱讀】半監督、自監督和無監督技術在圖像分類中的應用綜述

論文標題
A survey on Semi-, Self- and Unsupervised Techniques in Image Classification

概念解釋

unsupervised

輸入只有樣本沒有標籤,損失函數需要的一切參數都由輸入樣本生成

semi-supervised

輸入的樣本有一部分是有標籤的,另一部分沒有標籤,通常損失函數=有監督損失函數+無監督損失函數

self-supervised

首先對無標籤數據進行pretext task,在進行微調的時候需要用到有標籤數據

weakly-supervised

周志華教授綜述
弱監督的概念包括三種:有部分標籤(半監督)、有粗糙的標籤、有錯誤的標籤

metric-learning(or相似度學習)

拐個彎,比如後面介紹到的通過對旋轉角度、相對位置等的學習來實現對圖片內容理解的學習

技術

Consistency regularization

在半監督中,這個技術作爲一種額外添加的損失函數與有監督的損失函數並行訓練
在自監督和無監督中可以只使用這種技術作爲損失函數訓練

Virtual Adversarial Training (VAT)

文獻:Virtual adversarial training: a regularization method for supervised and semi-supervised learning
在這裏插入圖片描述
x是某一個數據,f(x)是網絡輸出,D是距離的度量,P是概率分佈,radv是使D最大時的r
在這裏插入圖片描述

Mutual Information (MI)

文獻:Elements of information theory
通過令P(f(x))=P(f(y))來平衡使熵最大化和使條件熵最小化的影響

Entropy Minimization (EntMin)

文獻:Semi-supervised learning by entropy minimization
They minimized the entropy H(P f(x) ) for all probability distributions P f(x) based on a certain neuraloutputf(x) for an image x

Mean Squared Error (MSE)

在這裏插入圖片描述

Overclustering

**文獻:Deep clustering for unsupervised learning of visual features. **
相對於有監督方法中的k個classes,在無監督方法中則使用k個clusters

Pseudo-Labels

文獻:Pseudo-label: The simple and efficient semi-supervised learning method for deep neural networks.
把預測的結果當作僞標籤再進行訓練

方法

半監督

Fast-Stochastic Weight Averaging (fast-SWA)

文獻: There are many consistent explanations of unlabeled data: Why you should average
不修改損失函數而是優化算法,即平均或者循環學習率

Mean Teacher

文獻: Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results
根據每個更新步驟中學生模型的平均權重來使用教師模型。

MixMatch

文獻:Mixmatch: A holistic approach to semi-supervised learning

  • 損失函數=CE(有監督)+預測和僞標籤的MSE(無監督)
  • 使用一種基於多重預測的銳化方法提高僞標籤的質量
  • 將樣本(包括標籤的整合)參數化整合在一起

π-model and Temporal Ensembling

文獻:Temporal ensembling for semi-supervised learning

  • 損失函數=CE+MSE
  • MSE的輸入(網絡對隨機一張優化圖片的輸出, π-model使用同一張優化圖片|Temporal Ensembling使用之前預測輸出的指數移動平均)
    在這裏插入圖片描述

Pseudo-Labels

文獻:Pseudo-label: The simple and efficient semi-supervised learning method for deep neural networks.

Self-SupervisedSemi-SupervisedLearning(S4L)

文獻:S4l: Self-supervised semi-supervised learning.
損失函數=CE+基於旋轉和範例預測的自監督方法的損失函數

Unsupervised Data Augmentation (UDA)

文獻:Unsupervised data augmentation for consistency training
使用AutoAugment,Cutout(隨機挑選圖片mask),僞標籤用於過濾無監督數據的異常值等技術

Virtual Adversarial Training (VAT)

文獻:Virtual adversarial training: a regularization method for supervised and semi-supervised learning

自監督

Augmented Multiscale Deep InfoMax (AMDIM)

文獻:Learning representations by maximizing mutual information across views

  • 從同一張圖片的不同增強中採樣
  • 從多尺度的採樣中最大化MI

Contrastive Predictive Coding (CPC)

文獻:Representation learning with contrastive predictive coding
損失函數爲InfoNCE,從負面的結果中隨機採樣中確認正確的預測來定義預測的質量

DeepCluster

文獻:Deep clustering for unsupervised learning of visual features
利用k聚類算法生成標籤

Deep InfoMax (DIM)

文獻: Learning deep representations by mutual information estimation and maximization
對局部圖像區域進行MI最大化(AMDIM是DIM的擴展)

Invariant Information Clustering (IIC)

文獻: Invariant information clustering for unsupervised image classification and segmentation
考慮增強前後的圖像信息保持不變性,對圖像增強視圖之間的MI進行最大化,使用類分佈而不是輸出分佈。
在這裏插入圖片描述

Representation Learning - Context

文獻:Unsupervised visual representation learning by context prediction
把圖片分割成具有相對位置的分塊,通過學習分塊之間的相對位置實現對圖像內容理解的學習

Representation Learning

Exemplar

文獻:Discriminative unsupervised feature learning with exemplar convolutional neural networks
通過學習各種增強圖像和原圖像之間的對應關係實現圖像分類

Jigsaw

文獻:Unsupervised learning of visual representations by solving jigsaw puzzles

  • 圖片被分割成多塊,網絡需要從這些patch中學習圖片中物體的類別,最後用有標籤數據進行微調
  • Jigsaw++則是在多塊patch中加入錯誤的patch

Rotation

文獻:Unsupervised representation learning by predicting image rotations
隨機對圖片進行多個角度的旋轉,然後讓網絡學習識別出旋轉角度從而實現理解圖片信息,最後用有標籤數據進行微調

無監督

Deep Adaptive Image Clustering (DAC)

文獻: Deep adaptive image clustering
首先計算各個聚類的餘弦相似性,再利用這個餘弦相似性對輸入圖片進行兩兩分類

Invariant Information Clustering (IIC)

IIC可以不通過有標籤數據進行微調,因此也算作無監督方法

Information Maximizing Self-Augmented Training(IMSAT)

文獻:Learning discrete representations via information maximizing self-augmented training
最好的增強可由VAT生成,加入一個由原圖像和增強圖像構成的CE損失函數,使輸入輸出的MI最大化

比較

數據集

CIFAR-10、CIFAR-100、STL-10、ILSVRC-2012(ImageNet的子集)

Evaluation metrics

有標籤
在這裏插入圖片描述
無標籤使用集羣精度
在這裏插入圖片描述

方法比較

使用技術

說明

  • 所有的半監督方法都採用交叉熵損失函數,不使用MI,經常包括VAT、EntMin、MSE
  • 所有的自監督方法都使用一個pretext task和有標籤微調
  • 所有的無監督方法則不包括任何有標籤數據
    具體如表格所示
    在這裏插入圖片描述

性能表現

在這裏插入圖片描述

討論

趨勢一:現實應用

趨勢二:必需的監督在減少

趨勢三:技術的結合

例如MixMatch和S4L的效果最好,都是綜合了多種技術

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章