論文閱讀筆記《TransMatch: A Transfer-Learning Scheme for Semi-Supervised Few-Shot Learning》

核心思想

  本文提出一種基於遷移學習的半監督小樣本學習算法(TransMatch)。整個算法並不複雜,首先利用帶有標籤的基礎數據集訓練特徵提取網絡,然後用該特徵提取網絡爲新的數據集初始化分類器權重,最後用半監督學習的方式進一步更新整個網絡。整個流程如下圖所示
在這裏插入圖片描述
  第一階段:預訓練階段。這一階段沒有什麼值得介紹的,就是用帶有標籤的基礎數據集對特徵提取器進行訓練。
  第二階段:分類器權重“生成”階段(Classifier Weight Imprinting)。在這一階段,使用已經預訓練好的特徵提取網絡,對新的帶有標籤的數據集進行特徵提取,並生成對應的分類器權重。本文采用一種叫做Weight Imprinting的方法來生成分類器的權重,方法如下
在這裏插入圖片描述
式中wcw_c表示類別cc對應的分類器權重,fef^e表示特徵提取網絡,xkcx^c_k表示類別cc中第kk個樣本。通過上式得到每個類別對應的權重後,再通過計算餘弦距離的方式進行分類
在這裏插入圖片描述
式中對於樣本xx,分別計算其與NN個類別權重之間的餘弦相似度,並選擇餘弦相似度最高的哪一類作爲預測結果。
  第三階段:半監督微調訓練階段。在這一階段採用新的帶有標籤的數據集DnovelD^{novel}和與DnovelD^{novel}類別相同但不帶有標籤的數據集,共同對網絡進行微調訓練。本文采用MixMatch的方式進行半監督訓練,定義L={(xi,pi)}i=1B\mathcal{L}=\left \{(x_i,p_i)\right \}^B_{i=1}表示BB個帶有標籤pip_i的樣本,U={(xu)}u=1U\mathcal{U}=\left \{(x_u)\right \}^U_{u=1}表示UU個不帶有標籤的樣本。首先對每個無標籤的樣本xux_u進行數據擴充(應該採用的是常規的翻轉,放縮等形式)得到MM個合成樣本{xu,i,...,xu,M}\left \{x_{u,i},...,x_{u,M}\right \},然後用第二階段訓練得到的分類器對每個無標籤樣本進行預測,並取MM個合成樣本的平均值作爲預測結果
在這裏插入圖片描述
銳化操作(sharpen operation)用於進一步增強預測結果
在這裏插入圖片描述
其中T=0.5T=0.5,這樣就得到了無標籤樣本對應的標籤信息了。將數據集L,U\mathcal{L,U}級聯後,再將順序打亂,得到新的混合數據集W=Shuffle(Concat(L,U))\mathcal{W}=Shuffle(Concat(\mathcal{L,U})),然後將其分爲以下兩個集合
在這裏插入圖片描述
其中混合操作MixUP計算過程如下
在這裏插入圖片描述
式中λ=max(λ,1λ)\lambda'=max(\lambda,1-\lambda)λ\lambda是從Beta分佈Beta(α,α)Beta(\alpha,\alpha)中隨機生成的。

實現過程

網絡結構

  特徵提取網絡採用寬闊的殘差網絡WRN-28-10。

損失函數

  損失函數計算過程如下
在這裏插入圖片描述
其中
在這裏插入圖片描述
在這裏插入圖片描述

訓練策略

  本文的訓練過程如下
在這裏插入圖片描述

創新點

  • 採用基於遷移學習的半監督訓練方法實現小樣本學習任務
  • 採用Weight Imprinting的方式進行分類器權重生成,採用MixUp方式進行半監督訓練

算法評價

  與之前研究較多的採用元學習的小樣本學習方法不同,本文沿用了更爲傳統的遷移學習思想,並結合半監督學習方式,證明了遷移學習還是能夠在小樣本場景下取得較好的效果的。但本文核心創新點並不多,有一種拼湊的感覺。無論是Weight Imprinting分類器權重生成還是MixUp半監督訓練方法都是借鑑了別人的方案。

如果大家對於深度學習與計算機視覺領域感興趣,希望獲得更多的知識分享與最新的論文解讀,歡迎關注我的個人公衆號“深視”。在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章