A holistic approach to semi-supervised learning

Berthelot D, Carlini N, Goodfellow I, et al. Mixmatch: A holistic approach to semi-supervised learning[J]. arXiv preprint arXiv:1905.02249, 2019.
https://github.com/samihaija/mixhop

半监督学习的核心想法是利用无标注的数据来减轻对有标数据的需求。正则项可分为三类:一致性正则化、熵最小化和传统正则化。本文结合了这三种正则,消融实验表明MixMatch效果好于三个正则项每部分提升之和。

正则项

一致性正则化

分类器对于数据增强后的的数据的分类分布应该与之前的类别分布一样:
P(yAugment(x);θ)p(yx)22||P(y|Augment(x);\theta)-p(y|x)||^2_2

熵最小化

分类器的决策边界不应该穿过数据边缘分布的高密度区域:

  • 显式的对unlabeled data加入P(yx,θ)P(y|x,\theta)的熵作为损失函数
  • 使用“sharpening”函数来隐式地实现熵的最小化

传统正则化

传统的正则化项位 L2 范数。本文的优化方法为Adam算法,使用权值衰减来替代L2损失项。

MixMatch

使用 MixMatch 生成数据,有标签的数据X和等量的无标数据U,和超参数:锐化(“sharpening”)参数T、对于无标数据强化K次和 Mixup 的参数α\alpha
在这里插入图片描述

sharpening:

sharpen(p,T)i=pi1Tj=1Lpj1Tsharpen(p,T)_i=\frac{p_i^{\frac{1}{T}}}{\sum_{j=1}^{L}p_j^{\frac{1}{T}}}

MixUp

λ=Beta(α,α)\lambda=Beta(\alpha, \alpha)

λ=max(λ,1λ)\lambda^’=max(\lambda,1-\lambda)

x=λx1+(1λ)x2x’=\lambda^’x_1+(1-\lambda^’)x_2

p=λp1+(1λ)p2p’=\lambda^’p_1+(1-\lambda^’)p_2

loss

X,U=MixMatch(X,U,T,K,α)X’,U’=MixMatch(X , U, T, K, \alpha)

LX=1Xx,pXH(p,pmodel(yx;θ))L_X=\frac{1}{|X’|}\sum_{x,p\in X’}H(p, p_{model}(y|x; \theta))

LU=1LUu,qUqpmodel(yx;θ)22L_U = \frac{1}{L|U’|}\sum_{u,q\in U’}||q-p_{model}(y|x; \theta)||^2_2

L=LX+λULUL=L_X+\lambda_UL_U

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章