UNSUPERVISED DATA AUGMENTATION FOR CONSISTENCY TRAINING

github代碼地址
 論文下載地址

Summary

將監督學習中常用的數據增強方式應用於半監督學習。
在圖像分類中應用RandAugment方法，文本分類中使用Back-translation和Word replacing with TF-IDF方法。
提出TSA方法來處理有標籤樣本和無標籤樣本數據不平衡問題。
在6項文本任務和3項圖像任務中進行實驗，取得優異的結果。

Problem Statement

深度學習的缺陷在於它通常需要大量的標記數據才能work well。
近年來，在設計NLP、VISION和Speech方面，數據增強方面取得了重大進展。儘管取得了很好的效果，但數據增強大多被認爲是蛋糕上的櫻桃，它提供了穩定但有限的性能提升，因爲到目前爲止，這些增強只適用於一組標有標籤的示例，這些例子通常都是小尺寸的。

Research Object

提出用高質量的數據增強方法代替傳統的噪聲注入方法，提高訓練的一致性。

Methods

Unsupervised Data Augmentation (UDA)

針對分類任務，使用 $x$ 指代input， $y^*$ 指代ground-truth prediction target，旨在學習一個模型 $p_θ(y|x)$ ，基於 $x$ 來預測 $y$ ， $θ$ 指代模型參數， $L$ 和 $U$ 來分別指代帶標籤和不帶標籤的樣本。

1.Background： Supervised Data Augmentation

$q(\hat{x}|x)$ 爲 $x$ 到增強樣本 $\hat{x}$ 的增強變換， $x$ 和 $\hat{x}$ 共享同一個ground-truth label。給定有效的增強變換，我們可以簡單地將增強樣例進行負對數似然最小化。
數據增強在NLP、VISION、SPEECH領域都有使用，但被認爲是蛋糕上的櫻桃，它提供了穩定但有限的性能提升，因爲到目前爲止，這些增強只適用於一組標有標籤的示例，這些例子通常都是小尺寸的。出於這一限制，通過一致性訓練框架，我們將監督數據增強的進展擴展到有大量未標記數據的半監督學習。

2.Unsupervised Data Augmentation

半監督學習的最新工作是利用未標記的示例來增強模型的smoothness。這些工作的一般形式可概括如下：

Given an input $x$ , compute the output distribution $p_θ(y|x)$ given $x$ and a noised version $p_θ(y|x,\epsilon)$ by injecting a small noise $\epsilon$ . The noise can be applied to $x$ or hidden states.
Minimize a divergence metric between the two distributions $D(p_θ(y|x)||p_θ(y|x,\epsilon))$
此過程強制使模型對噪聲不敏感，因此相對於輸入（或隱藏）空間的變化更平滑。從另一個角度來看，將一致性損失降至最低會逐漸將標籤信息從已標記的數據傳播到未標記的數據。

在此工作中，我們對將噪聲注入input $x$ 的特定設置感興趣， $\hat{x}=q(x|\epsilon)$
但是與現有工作不同，我們關注如下問題，即噪聲操作q的形式或“質量”如何影響一致性訓練框架的性能。具體而言，爲了增強一致性，現有方法通常採用簡單的噪聲注入方法，例如添加高斯噪聲，對未標記噪聲的示例進行簡單的輸入增強。相反，我們認爲，在半監督學習框架中，使用在監督學習中的數據增強功能來處理未標記數據也可以帶來更好的性能，因爲已經證明：更多樣化和更自然的高級數據增強可以在監督模型中顯著提高性能。

整體的loss由使用權重因子 $\lambda$ 平衡有監督的cross entropy和無監督的consistency training loss組成，過程如圖1所示，也可寫成： $\min \limits_\theta J(\theta)=E_{x,y^*\in L}[-\log p_\theta(y^*|x)]+ \lambda E_{x\in U}E_{ \hat{x} \sim q(\hat{x}|x)} [D_{KL}(p_{{\tilde \theta}}(y|x)||p_\theta(y|\hat{x}))]$ $q(\hat{x}|x)$ 是數據增強轉換， ${\tilde \theta}$ 是當前參數 $\theta$ 的固定副本，指梯度並不通過 ${\tilde \theta}$ 傳播。

Discussion.在詳細介紹本工作中使用的增強操作之前，我們首先從以下三個方面介紹更高級的數據增強如何提供比早期工作中使用的簡單方式更多的優勢：

Valid noise：在監督學習中表現出色的高級數據擴充方法通常會生成真實的擴充數據，這些數據與原始數據共享相同的標籤。因此，可以有效確保對原始未標記數據和增強未標記數據預測的一致性。
Diverse noise：由於高級數據增強可以對輸入數據進行較大的改動而不改變其標籤，所以它具有更強的多樣性，而例如高斯噪聲只改變了局部信息。
Targeted inductive biases：不同的任務需要不同的歸納偏差。在監督訓練中工作良好的數據增強操作本質上提供了缺失的歸納偏差。

3.Augmentation Strategies For Different Tasks

RandAugment for Image Classification: AutoAugment通過在所有的圖像處理轉換方式中進行搜索，以便找到一個最優的增強策略。RandAugment(Cubuk et al.,2019)受AutoAugment方法啓發，但是沒有使用搜索，而是在圖像增強轉換集合中進行均勻採樣，它更簡單，不要求數據具有標籤。
Back-translation for Text Classification: Back-translation指的是把一個樣本（語言A）轉換成另一個語言B再轉換回來，以此得到增強樣本，在保留原始語義的同時帶來更多樣性的表達，它在問答系統中取得了良好的表現。
Word replacing with TF-IDF for Text Classification: 在文章附錄C中有詳細描述。

4.Training Signal Annealing For Low-Data Regime

有標籤數據和無標籤數據數據量不平衡問題，會導致模型對有標籤數據過擬合，或無標籤數據欠擬合。針對此類問題，本文提出了TSA(Training Signal Annealing)方法，它會在訓練過程中逐步釋放有標籤樣本的"training signals"，如果這個樣本在第 $t$ 步訓練時的 $p_\theta(y^*|x)$ 即正確預測其標籤的概率值大於閾值 $\eta_t$ ，那麼就把它從loss function中移除，從而減少過擬合現象。假設共有 $K$ 個類別，令 $\eta_t$ 逐步從 $1/K$ 升至 $1$ 。下圖是TSA的三種進度， $T$ 指代總共的訓練次數。

Experiments

6項語言任務：

sentiment classification(IMDb,Yelp-2,Yelp-5,Amazon-2,Amazon-5)、DBPedia topic classification

3項視覺任務：

CIFAR-10,SVHN,ImageNet

1.Correlation Between Supervised And Semi-Supervised Performances

2.Algorithm Comparison On Vision Semi-Supervised Benchmarks

UDA和目前已有的半監督學習算法相比如何？

Vary the size of labeled data

UDA與VAT以及MixMatch這兩個baseline相比有着明顯的優越性；

UDA和VAT的主要差別在於噪聲處理，VAT生成的高頻圖像在現實中並不存在，UDA生成的圖像具有多樣性和真實性。
Comparisons with published results

3.Evaluation On Text Classificaiton Datasets

Results with different labeled set sizes

4.Scalability Test On The ImageNet Dataset

5.Ablation Studies For TSA

其它實驗細節在文章附錄中有詳細描述。

Conclusion

本文說明數據增強和半監督學習能夠良好地結合，良好的數據增強可以爲半監督學習帶來顯著地提升。UDA採用在監督學習中的數據增強方式來生成多樣和真實的噪聲數據並使模型對這些噪聲保持一致性。在文本任務中，UDA和表示學習良好結合，如BERT，並且在數據量少的情況下取得了優異的表現。在視覺任務中，UDA的表現顯著超越之前的模型並取得了和監督學習媲美的結果。UDA可以有效利用額外的無標籤數據。希望未來有更多的研究將監督學習的數據增強應用於各種半監督學習之中。

Notes

文章附錄記載了未在正文中具體描述的實驗內容，以及訓練過程中的部分細節信息。

論文閱讀筆記：UNSUPERVISED DATA AUGMENTATION FOR CONSISTENCY TRAINING