論文閱讀筆記:UNSUPERVISED DATA AUGMENTATION FOR CONSISTENCY TRAINING

UNSUPERVISED DATA AUGMENTATION FOR CONSISTENCY TRAINING

github代碼地址
論文下載地址

Summary

  • 將監督學習中常用的數據增強方式應用於半監督學習。
  • 在圖像分類中應用RandAugment方法,文本分類中使用Back-translation和Word replacing with TF-IDF方法。
  • 提出TSA方法來處理有標籤樣本和無標籤樣本數據不平衡問題。
  • 在6項文本任務和3項圖像任務中進行實驗,取得優異的結果。

Problem Statement

  • 深度學習的缺陷在於它通常需要大量的標記數據才能work well。
  • 近年來,在設計NLP、VISION和Speech方面,數據增強方面取得了重大進展。儘管取得了很好的效果,但數據增強大多被認爲是蛋糕上的櫻桃,它提供了穩定但有限的性能提升,因爲到目前爲止,這些增強只適用於一組標有標籤的示例,這些例子通常都是小尺寸的。

Research Object

  • 提出用高質量的數據增強方法代替傳統的噪聲注入方法,提高訓練的一致性。

Methods

Unsupervised Data Augmentation (UDA)

針對分類任務,使用xx指代input,yy^*指代ground-truth prediction target,旨在學習一個模型pθ(yx)p_θ(y|x),基於xx來預測yyθθ指代模型參數,LLUU來分別指代帶標籤和不帶標籤的樣本。

1.Background: Supervised Data Augmentation

q(x^x)q(\hat{x}|x)xx到增強樣本x^\hat{x}的增強變換,xxx^\hat{x}共享同一個ground-truth label。給定有效的增強變換,我們可以簡單地將增強樣例進行負對數似然最小化。
數據增強在NLP、VISION、SPEECH領域都有使用,但被認爲是蛋糕上的櫻桃,它提供了穩定但有限的性能提升,因爲到目前爲止,這些增強只適用於一組標有標籤的示例,這些例子通常都是小尺寸的。出於這一限制,通過一致性訓練框架,我們將監督數據增強的進展擴展到有大量未標記數據的半監督學習。

2.Unsupervised Data Augmentation

半監督學習的最新工作是利用未標記的示例來增強模型的smoothness。這些工作的一般形式可概括如下:

  • Given an input xx, compute the output distribution pθ(yx)p_θ(y|x) given xx and a noised version pθ(yx,ϵ)p_θ(y|x,\epsilon) by injecting a small noise ϵ\epsilon. The noise can be applied to xx or hidden states.
  • Minimize a divergence metric between the two distributions D(pθ(yx)pθ(yx,ϵ))D(p_θ(y|x)||p_θ(y|x,\epsilon))
    此過程強制使模型對噪聲不敏感,因此相對於輸入(或隱藏)空間的變化更平滑。 從另一個角度來看,將一致性損失降至最低會逐漸將標籤信息從已標記的數據傳播到未標記的數據

在此工作中,我們對將噪聲注入input xx的特定設置感興趣,x^=q(xϵ)\hat{x}=q(x|\epsilon)
但是與現有工作不同,我們關注如下問題,即噪聲操作q的形式或“質量”如何影響一致性訓練框架的性能。 具體而言,爲了增強一致性,現有方法通常採用簡單的噪聲注入方法,例如添加高斯噪聲,對未標記噪聲的示例進行簡單的輸入增強。相反,我們認爲,在半監督學習框架中,使用在監督學習中的數據增強功能來處理未標記數據也可以帶來更好的性能,因爲已經證明:更多樣化和更自然的高級數據增強可以在監督模型中顯著提高性能。

整體的loss由使用權重因子λ\lambda平衡有監督的cross entropy和無監督的consistency training loss組成,過程如圖1所示,也可寫成:minθJ(θ)=Ex,yL[logpθ(yx)]+λExUEx^q(x^x)[DKL(pθ~(yx)pθ(yx^))]\min \limits_\theta J(\theta)=E_{x,y^*\in L}[-\log p_\theta(y^*|x)]+ \lambda E_{x\in U}E_{ \hat{x} \sim q(\hat{x}|x)} [D_{KL}(p_{{\tilde \theta}}(y|x)||p_\theta(y|\hat{x}))] q(x^x)q(\hat{x}|x)是數據增強轉換,θ~{\tilde \theta}是當前參數θ\theta的固定副本,指梯度並不通過θ~{\tilde \theta}傳播。

在這裏插入圖片描述

Discussion.在詳細介紹本工作中使用的增強操作之前,我們首先從以下三個方面介紹更高級的數據增強如何提供比早期工作中使用的簡單方式更多的優勢:

  • Valid noise:在監督學習中表現出色的高級數據擴充方法通常會生成真實的擴充數據,這些數據與原始數據共享相同的標籤。 因此,可以有效確保對原始未標記數據和增強未標記數據預測的一致性。
  • Diverse noise:由於高級數據增強可以對輸入數據進行較大的改動而不改變其標籤,所以它具有更強的多樣性,而例如高斯噪聲只改變了局部信息。
  • Targeted inductive biases:不同的任務需要不同的歸納偏差。在監督訓練中工作良好的數據增強操作本質上提供了缺失的歸納偏差。

3.Augmentation Strategies For Different Tasks

  • RandAugment for Image Classification: AutoAugment通過在所有的圖像處理轉換方式中進行搜索,以便找到一個最優的增強策略。RandAugment(Cubuk et al.,2019)受AutoAugment方法啓發,但是沒有使用搜索,而是在圖像增強轉換集合中進行均勻採樣,它更簡單,不要求數據具有標籤。

  • Back-translation for Text Classification: Back-translation指的是把一個樣本(語言A)轉換成另一個語言B再轉換回來,以此得到增強樣本,在保留原始語義的同時帶來更多樣性的表達,它在問答系統中取得了良好的表現。
    在這裏插入圖片描述

  • Word replacing with TF-IDF for Text Classification: 在文章附錄C中有詳細描述。

4.Training Signal Annealing For Low-Data Regime

有標籤數據和無標籤數據數據量不平衡問題,會導致模型對有標籤數據過擬合,或無標籤數據欠擬合。針對此類問題,本文提出了TSA(Training Signal Annealing)方法,它會在訓練過程中逐步釋放有標籤樣本的"training signals",如果這個樣本在第tt步訓練時的pθ(yx)p_\theta(y^*|x)即正確預測其標籤的概率值大於閾值ηt\eta_t,那麼就把它從loss function中移除,從而減少過擬合現象。假設共有KK個類別,令ηt\eta_t逐步從1/K1/K升至11。下圖是TSA的三種進度,TT指代總共的訓練次數。在這裏插入圖片描述

Experiments

6項語言任務:

  • sentiment classification(IMDb,Yelp-2,Yelp-5,Amazon-2,Amazon-5)、DBPedia topic classification

3項視覺任務:

  • CIFAR-10,SVHN,ImageNet

1.Correlation Between Supervised And Semi-Supervised Performances在這裏插入圖片描述

2.Algorithm Comparison On Vision Semi-Supervised Benchmarks

UDA和目前已有的半監督學習算法相比如何?

  • Vary the size of labeled data

    UDA與VAT以及MixMatch這兩個baseline相比有着明顯的優越性;

    UDA和VAT的主要差別在於噪聲處理,VAT生成的高頻圖像在現實中並不存在,UDA生成的圖像具有多樣性和真實性。
    在這裏插入圖片描述

  • Comparisons with published results
    在這裏插入圖片描述

3.Evaluation On Text Classificaiton Datasets

在這裏插入圖片描述

  • Results with different labeled set sizes
    在這裏插入圖片描述

4.Scalability Test On The ImageNet Dataset

在這裏插入圖片描述

5.Ablation Studies For TSA

在這裏插入圖片描述
其它實驗細節在文章附錄中有詳細描述。

Conclusion

本文說明數據增強和半監督學習能夠良好地結合,良好的數據增強可以爲半監督學習帶來顯著地提升。UDA採用在監督學習中的數據增強方式來生成多樣和真實的噪聲數據並使模型對這些噪聲保持一致性。在文本任務中,UDA和表示學習良好結合,如BERT,並且在數據量少的情況下取得了優異的表現。在視覺任務中,UDA的表現顯著超越之前的模型並取得了和監督學習媲美的結果。UDA可以有效利用額外的無標籤數據。希望未來有更多的研究將監督學習的數據增強應用於各種半監督學習之中。

Notes

文章附錄記載了未在正文中具體描述的實驗內容,以及訓練過程中的部分細節信息。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章