Berthelot D, Carlini N, Goodfellow I, et al. Mixmatch: A holistic approach to semi-supervised learning[J]. arXiv preprint arXiv:1905.02249, 2019.
https://github.com/samihaija/mixhop
半監督學習的核心想法是利用無標註的數據來減輕對有標數據的需求。正則項可分爲三類:一致性正則化、熵最小化和傳統正則化。本文結合了這三種正則,消融實驗表明MixMatch效果好於三個正則項每部分提升之和。
正則項
一致性正則化
分類器對於數據增強後的的數據的分類分佈應該與之前的類別分佈一樣:
∣∣P(y∣Augment(x);θ)−p(y∣x)∣∣22
熵最小化
分類器的決策邊界不應該穿過數據邊緣分佈的高密度區域:
- 顯式的對unlabeled data加入P(y∣x,θ)的熵作爲損失函數
- 使用“sharpening”函數來隱式地實現熵的最小化
傳統正則化
傳統的正則化項位 L2 範數。本文的優化方法爲Adam算法,使用權值衰減來替代L2損失項。
MixMatch
使用 MixMatch 生成數據,有標籤的數據X和等量的無標數據U,和超參數:銳化(“sharpening”)參數T、對於無標數據強化K次和 Mixup 的參數α。
sharpening:
sharpen(p,T)i=∑j=1LpjT1piT1
MixUp
λ=Beta(α,α)
λ’=max(λ,1−λ)
x’=λ’x1+(1−λ’)x2
p’=λ’p1+(1−λ’)p2
loss
X’,U’=MixMatch(X,U,T,K,α)
LX=∣X’∣1x,p∈X’∑H(p,pmodel(y∣x;θ))
LU=L∣U’∣1u,q∈U’∑∣∣q−pmodel(y∣x;θ)∣∣22
L=LX+λULU