論文閱讀筆記《Instance Credibility Inference for Few-Shot Learning》

原創

2020-07-02 15:26

核心思想

本文提出一種基於數據增強的小樣本學習算法（ICI）。本文的數據增強是通過自訓練（self-training）的方式實現的，具體而言就是利用有標籤的樣本先訓練得到一個分類器，然後預測無標籤樣本，得到僞標籤。選擇僞標籤中置信度較高的樣本，補充到訓練集中，實現數據擴充。通過迭代訓練的方式逐步改善分類器的效果。網絡流程如下圖所示

首先利用有標籤樣本訓練特徵提取器和線性分類器，然後無標籤的樣本經過特徵提取和簡單的線性分類後得到預測的僞標籤，利用實例置信度推斷模塊（Instance Credibility Inference，ICI）選擇出置信度較高的樣本和僞標籤，並利用其擴充支持集，而置信度較低的樣本則用於更新無標籤數據集。整個過程中最重要的一點就是如何計算預測得到的僞標籤的置信度，從而避免將分類錯誤的樣本補充到支持集中，導致數據集被污染。下面具體介紹ICI模塊的處理過程，無論對於有標籤樣本還是無標籤樣本，網絡的預測結果 $y_i$ 計算方式如下

式中 $x_i$ 表示樣本對應的特徵向量（特徵提取網絡輸出的特徵向量經過PCA降維後得到）， $\beta$ 表示分類器的係數矩陣， $\varepsilon _i$ 表示均值爲0，方差爲 $\sigma$ 的高斯噪聲， $\gamma_{ij}$ 用於修正實例 $i$ 被分配給類別 $j$ 的概率， $\gamma_{ij}$ 的模越大，實例 $i$ 被分配給類別 $j$ 的難度越大。那麼本文的優化目標爲

式中 $R(\gamma)=\sum^n_{i=1}\left \|\gamma_i \right \|_2$ 表示懲罰項， $\lambda$ 表示懲罰項係數。爲求解上述目標，本文的損失函數如下

令 $\frac{\partial L}{\partial \beta}=0$ 可得

式中 $()^{\dagger }$ 表示廣義逆矩陣。但值得注意的是，本文希望用 $\gamma$ 來度量實例的置信度，而不是用 $\hat{\beta}$ ，這是因爲簡單的線性分類器不足以對各種類別的樣本進行很好的分類，而且 $\hat{\beta}$ 的值本身也依賴於 $\gamma$ 的取值。因此我們將上式代入損失函數 $L$ 中得到下式

式中 $H=X(X^TX)^{\dagger }X^T$ 。令 $\tilde{X}=(I-H),\tilde{Y}=\tilde{X}Y$ ，則上式可簡化爲

利用塊下降算法可以求解上式。首先 $\lambda$ 存在一個理論值，使得上式的解均爲0，該理論值如下

那麼我們可以得到由0到 $\lambda_{max}$ 之間一系列的 $\lambda_s$ ，對於每個 $\lambda$ 在求解目標函數時，都能獲得一條對應的 $\gamma$ 規則化路徑。而且當 $\lambda$ 由0變化到 $\infty$ 時， $\gamma$ 的稀疏性不斷增強，直到他的所有元素都逐漸消失（vanish）。懲罰項 $R(\gamma)$ 會使得 $\gamma$ 一個實例接一個實例的消失，且消失的越早，則表明該實例的預測結果與真實值越爲接近，因此根據 $\gamma_i$ 消失的順序可以得到對應的置信度 $\lambda$ 。