论文阅读笔记《Instance Credibility Inference for Few-Shot Learning》

原創

2020-07-02 15:26

核心思想

本文提出一种基于数据增强的小样本学习算法（ICI）。本文的数据增强是通过自训练（self-training）的方式实现的，具体而言就是利用有标签的样本先训练得到一个分类器，然后预测无标签样本，得到伪标签。选择伪标签中置信度较高的样本，补充到训练集中，实现数据扩充。通过迭代训练的方式逐步改善分类器的效果。网络流程如下图所示

首先利用有标签样本训练特征提取器和线性分类器，然后无标签的样本经过特征提取和简单的线性分类后得到预测的伪标签，利用实例置信度推断模块（Instance Credibility Inference，ICI）选择出置信度较高的样本和伪标签，并利用其扩充支持集，而置信度较低的样本则用于更新无标签数据集。整个过程中最重要的一点就是如何计算预测得到的伪标签的置信度，从而避免将分类错误的样本补充到支持集中，导致数据集被污染。下面具体介绍ICI模块的处理过程，无论对于有标签样本还是无标签样本，网络的预测结果 $y_i$ 计算方式如下

式中 $x_i$ 表示样本对应的特征向量（特征提取网络输出的特征向量经过PCA降维后得到）， $\beta$ 表示分类器的系数矩阵， $\varepsilon _i$ 表示均值为0，方差为 $\sigma$ 的高斯噪声， $\gamma_{ij}$ 用于修正实例 $i$ 被分配给类别 $j$ 的概率， $\gamma_{ij}$ 的模越大，实例 $i$ 被分配给类别 $j$ 的难度越大。那么本文的优化目标为

式中 $R(\gamma)=\sum^n_{i=1}\left \|\gamma_i \right \|_2$ 表示惩罚项， $\lambda$ 表示惩罚项系数。为求解上述目标，本文的损失函数如下

令 $\frac{\partial L}{\partial \beta}=0$ 可得

式中 $()^{\dagger }$ 表示广义逆矩阵。但值得注意的是，本文希望用 $\gamma$ 来度量实例的置信度，而不是用 $\hat{\beta}$ ，这是因为简单的线性分类器不足以对各种类别的样本进行很好的分类，而且 $\hat{\beta}$ 的值本身也依赖于 $\gamma$ 的取值。因此我们将上式代入损失函数 $L$ 中得到下式

式中 $H=X(X^TX)^{\dagger }X^T$ 。令 $\tilde{X}=(I-H),\tilde{Y}=\tilde{X}Y$ ，则上式可简化为

利用块下降算法可以求解上式。首先 $\lambda$ 存在一个理论值，使得上式的解均为0，该理论值如下

那么我们可以得到由0到 $\lambda_{max}$ 之间一系列的 $\lambda_s$ ，对于每个 $\lambda$ 在求解目标函数时，都能获得一条对应的 $\gamma$ 规则化路径。而且当 $\lambda$ 由0变化到 $\infty$ 时， $\gamma$ 的稀疏性不断增强，直到他的所有元素都逐渐消失（vanish）。惩罚项 $R(\gamma)$ 会使得 $\gamma$ 一个实例接一个实例的消失，且消失的越早，则表明该实例的预测结果与真实值越为接近，因此根据 $\gamma_i$ 消失的顺序可以得到对应的置信度 $\lambda$ 。