半监督学习研究

昨天阅读了半监督学习的一些综述，整理如下：
在机器学习的实际应用中，如网页分类、文本分类、基因序列对比、蛋白质功能预测、语音识别、自然语言处理、计算机视觉和基因生物学，很容易找到海量的无类标签的样例，但需要使用特殊设备或经过昂贵且用时非常长的实验过程中进行人工标记才能得到有类标签的样本，由此产生了极少量的有类标签的样本和过剩的无类标签的样例。因此，人们尝试将大量的无类标签的样例加入到有限的有类标签的样本中一起训练进行学习，期望能对学习性能起到改进的作用，于是半监督学习（Semi-Supervised Learning，SSL）产生了，旨在避免数据和资源的浪费，解决监督学习模型泛化能力不强、无监督学习的模型不精确等问题，图1形象地展示了SSL。

１　半监督学习的假设
半监督学习希望利用无类标签的样例帮助改进学习性能，但是需要依赖模型假设才能确保它良好的学习性能。SSL依赖的假设有以下3个：
（1）平滑假设（Smoothness Assumption）
位于稠密数据区域的两个距离很近的样例的类标签相似，当两个样例北稀疏区域分开时，它们的类标签趋于不同。
（2）聚类假设（Cluster Assumption）
当两个样例位于同一聚类簇时，它们在很大的概率在有相同的类标签。这个假设的等价定义为低密度分类假设（Low Density Separation Assumption），即分类决策边界应该穿过稀疏数据区域，而避免将稠密数据区域的样例划分到决策边界两侧。
（3）流形假设（Manifold Assumption）
将高维数据嵌入到低维流形中，当两个样例位于低维流形中的一个小局部邻域内时，它们具有相似的类标签。
许多实验研究表明当SSL不满足这些假设或者模型假设不正确时，无类标签的样例不仅不能对学习性能起到改进作用，反而会恶化学习性能，导致SSL的性能下降。但是，也有实验表明，在一些特殊的情况下，即使模型假设正确，无类标签的样例也有可能损害学习性能。

2 半监督学习的分类
（1）半监督分类
在无类标签的样例的帮助下训练有类标签的样本，获得比只用有类标签的样本训练得到的分类器性能更优的分类器，弥补有类标签的样本不足的缺陷。
（2）半监督回归
在无输出的输入的帮助下训练有输出的输入，获得比只用有输出的输入训练得到的回归器性能更好的回归器。
（3）半监督聚类
在有类标签的样本的信息帮助下获得比只用无类标签的样例得到的结果更好的簇，提高聚类方法的精度。
（4）半监督降维
在有类标签的样本的信息帮助下找到高维输入数据的低维结构，同时保持原始高维数据和成对约束的结构不变，即在高维空间中满足正约束的样例在低维空间中相距很近，在高维空间中满足负约束的样例在低维空间中距离很远。

图2 SSL学习结构

3 半监督分类问题
半监督分类问题是SSL最常见的问题，其中有类标签的样本数量相比聚类问题多一些，通过大量的无类标签的样例来弥补部分有类标签样本的缺陷，训练得到分类性能更优的分类器。
主要的半监督分类方法有基于差异的方法（Disagreement-Based Methods）、生成式方法（Generative Methods）、判别式方法（Discriminative Methods）和基于图的方法（Graph-Based Methods）.
（1）基于差异的方法
ML中的数据有时可以用多种方式表示其特征。例如，在网页分类问题中，网页可以用每页出现的词描述，也可以用超链接描述；癌症诊断可以用CT、超声波或MRI等多种医学图像技术确定患者是否患有癌症。基于这些朴素的思想，产生了基于差异的方法。
这里介绍协同训练方法。如图3所示，协同训练方法的基本训练过程为：在有类标签的样本的两个不同视图上分别训练，得到两个不同的学习机，然后用这两个学习机预测无类标签的样例的类标签，每个学习机选择标记结果置信度最高的样例和它们的类标签加入另一个学习机的有类标签的样本集中。这个过程反复迭代进行，直到满足停止条件。这个方法需要满足两个假设条件：（1）视图充分冗余假设。给定足够数量的有类标签的样本，基于每个视图都能通过训练得到性能很好的学习机；（2）条件独立假设。每个视图的类标签都条件独立于另一视图给定的类标签。

图3 协同训练方法示意

基于差异的方法由于性能优越而得到广泛的应用，由此出现了许多变形。比如协同EM算法，只用有类标签的样本初始化第一视图学习机，然后用这个学习机以概率方式标记所有无类标签的样例，第二视图学习机训练所有数据，将得到的新的样本提供给第一视图学习机进行再训练，这个过程反复迭代进行，知道学习机的预测结果收敛。【存有疑问，在之后的小论文阅读分析后再重新写一篇文章】
尽管基于差异的方法已经广泛应用于许多实际领域，如统计语法分析、名词短语识别等，但是在大多数实际问题中，训练数据往往不满足视图充分冗余假设。有学者提出类似集成学习思想的方法，比如三训练法，用三个学习机分别进行训练，按投票选举的方式间接得到标记置信度，如果两个学习机对同一个无类标签的样例的预测结果相同，则认为该样例具有较高的标记置信度，将其与它的类标签加入到第三个学习机的训练数据中。

（2）生成式方法
生成式方法假定样例和类标签由某个或有一定结构关系的某组概率分布生成，已知类先验分布p(y)和类条件分布p(x|y),重复取样y~p(y)和x~p(x|y)，从这些分布中生成有类标签的样本L和无类标签的样例U.根据概率论定理得到后验分布p(y|x),找到使p(y|x)最大的类标签对x进行标记。
生成样例的模型由高斯模型，贝叶斯网络，S型信度网，GMM，多项混合模型（Multinomial Mixture Model,MMM），隐马尔科夫模型（Hidden Markov Model,HMM）和隐马尔科夫随机场模型（Hidden Markov Random Field, HMRF）等。
备注：在下一篇文章中会介绍最常见的生成式方法，即朴素贝叶斯分类器。

（3）判别式方法
判别式方法利用最大间隔算法同时训练有类标签的样本和无类标签的学习决策边界，如图4所示，是其通过低密度数据区域，并且使学习得到的分类超平面到最近的样例的距离间隔最大。判别式方法包括LDA、广义判别分析法（Generalized Discriminant Analysis, GDA）、半监督支持向量机、熵正则化法和KNN等。

图4 判别式方法示意

（4）基于图的方法
基于图的方法的实质是标签传播（Label Propagation），基于流形假设，根据样例之间的几何结构构造图（Graph），用图的结点表示样例，利用图上的邻接关系将类标签从有标签的样本向无标签的样例传播。
如图5所示，基于图的方法的基本训练过程为：

（1）选择合适的距离函数计算样例之间的距离。
可选择的距离函数有欧式距离、曼哈顿距离、切比雪夫距离、明氏距离、马氏距离和归一化欧式距离。
（2）根据计算得到的距离选择合适的连接方式，将样例用边连接，构造连接图。
构造的连接图分为稠密图和稀疏图，稠密图的典型代表是全连接图，如图6所示，任意结点之间都有边连接；稀疏图如图7所示，按照某种准则将距离最近的某几个结点连接，包括KNN图、指数权图等。
图6 稠密图示意

图7 稀疏图示意

（3）用核函数给图的连接边赋予权值，用权值反映这个边所连接的两个结点之间的相似程度。
当两个结点距离很近时，连接这两个结点的边的权值就很大，这两个样例有相同的类标签的概率就很大；当距离很远时，对应权值很小，这两个样例有相同类标签的概率就很小。常用的核函数有线性核、多项式核、高斯核等。
（4）根据学习目标确定优化问题并求解。
半监督分类问题的目标就是找到使目标函数最小的类标签的预测函数f(x)，这个问题可以看做是一个由损失函数和正则化组成的复合目标函数的正则化风险最小化问题，目标函数一般表示为

式中损失函数V（y,f(x)）用来惩罚样例的预测类标签不等于给定类标签的情况，正则化函数Ω(f)用来保证预测函数的平滑性，使近邻点的预测类标签相同。根据具体的学习任务可以选择不同的损失函数和正则化函数，如损失函数可以选取平方误差函数、绝对值函数、对数函数等。一般将损失函数和正则化函数复制到希尔伯特空间，用核学习方法求解学习机。