自然語言處理中的小樣本數據問題-數據增強與半監督學習模型

本文借鑑了NLP中的少樣本困境問題探究,記錄讀後筆記和感想。

目標:我們希望採取相關數據增強或弱監督技術後

  1. 在少樣本場景下,比起同等標註量的無增強監督學習模型,性能有較大幅度的提升;
  2. 在少樣本場景下,能夠達到或者逼近充分樣本下的監督學習模型性能;
  3. 在充分樣本場景下,性能仍然有一定提升;

在這裏插入圖片描述

一、NLP文本增強

文本增強根據是否依據文本的標籤做數據增強分爲無條件的文本增強,和有條件的文本增強。
在這裏插入圖片描述

無條件文本增強

  1. 詞彙短語替換:基於詞典的同義詞替換(EDA:Easy Data Augmentation),基於詞向量的相鄰詞替換(TinyBERT),Masked Language models,TF-IDF對非核心詞,低頻詞的替換。
  2. 隨機噪聲注入:有隨機插入(UDA),隨機替換,隨機刪除等操作。
  3. 混合交叉:混合增強借鑑了圖像中混合增強的思路,使用詞/句子向量的疊加作爲混合(wordMixup,sentMixup)。

混合增強:在這裏插入圖片描述

交叉增強:
在這裏插入圖片描述

  1. 回譯:使用機器翻譯模型對句子多次翻譯達到增強效果
  2. 句法交換:使用句法變化,如主動語態變被動語態
  3. 對抗增強:不同於CV領域利用GAN生成對抗進行數據增強,NLP中通常在詞向量上添加擾動並進行對抗訓練,NLP中的對抗訓練方法FGM, PGD, FreeAT, YOPO, FreeLB。ref:一文搞懂NLP中的對抗訓練

無條件增強的數據在數據標籤上不會發生變化,但是增強文本與原文語義有可能會發生偏差,故需要有條件的數據增強對生成本文進行限制。

有條件的文本增強

深度生成模型:既然條件增強需要引入標籤信息進行數據增強,那麼我們自然就會聯想到Conditional變分自編碼模型(CVAE),文獻[11]就利用CVA進行增強。想生成一個高質量的增強數據,往往需要充分的標註量,但這卻與「少樣本困境」這一前提所矛盾。這也正是GAN或者CVAE這一類深度生成模型在解決少樣本問題時需要考慮的一個現狀。

預訓練語言模型:衆所周知,BERT等在NLP領域取得了巨大成功,特別是其利用大量無標註數據進行了語言模型預訓練。如果我們能夠結合標籤信息、充分利用這一系列語言模型去做文本增強,也許能夠克服深度生成模型在少樣本問題上的矛盾。近來許多研究者對Conditional Pre-trained Language Models 做文本增強進行了有益嘗試:

  1. Contextual Augment:這是這一系列嘗試的開篇之作,其基於LSTM進行biLM預訓練,將標籤信息融入網絡結構進行finetune,是替換生成的詞彙與標籤信息兼容一致。
  2. CBERT:其主要思想還是借鑑了Contextual Augment,基於BERT進行finetune,將segment embedding轉換融入標籤指示的label embedding(如果標籤類別數目大於2類,則相應擴充),如下圖,替換good生成的funny與標籤positive兼容。
  3. LAMBADA:來自IBM團隊,其基於GPT-2將標籤信息與原始文本拼接當作訓練數據進行finetune(如下圖所示,SEP代表標籤和文本的分割,EOS是文本結束的標誌),同時也採用一個判別器對生成數據進行了過濾降噪。

ref:
Contextual augmentation: Data augmentation by words with paradigmatic relations
Conditional BERT contextual augmentation
Do Not Have Enough Data? Deep Learning to the Rescue!

我們可以發現文本增強技術可以滿足本文一開始給出的第一層次評價策略,即:在少樣本場景下,採用文本增強技術,比起同等標註量的無增強監督學習模型,性能會有較大幅度的提升。

二、半監督學習

監督學習往往需要大量的標註數據,而標註數據的成本比較高,因此如何利用大量的無標註數據來提高監督學習的效果,具有十分重要的意義。這種利用少量標註數據和大量無標註數據進行學習的方式稱爲半監督學習(Semi-Supervised Learning,SSL) 。

熵最小化(Entropy Minimization): 根據半監督學習的Cluster假設,決策邊界應該儘可能地通過數據較爲稀疏的地方(低密度區),以能夠避免把密集的樣本數據點分到決策邊界的兩側。也就是模型通過對未標記數據預測後要作出低熵預測,即熵最小化:
在這裏插入圖片描述
一致性正則(Consistency Regularization): 對於未標記數據,希望模型在其輸入受到擾動時產生相同的輸出分佈。即:
在這裏插入圖片描述

ref:
Pseudo-Label : The Simple and Efficient Semi-Supervised Learning Method for Deep Neural Networks
Temporal ensembling for semi-supervised learning
Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results
Virtual Adversarial Training: a Regularization Method for Supervised and Semi-supervised Learning
MixMatch: A Holistic Approach to Semi-Supervised Learning
ReMixMatch: Semi-Supervised Learning with Distribution Alignment and Augmentation Anchoring
FixMatch: Simplifying Semi-Supervised Learning with Consistency and Confidence

在這裏插入圖片描述

三、UDA:文本增強+半監督學習

本文在第1部分重點介紹了文本增強技術,文本增強方法通常針對標註數據(有監督數據增強),我們可以看到其在少樣本場景通常會取得穩定的性能提升,但相較於充分樣本下的監督學習性能,也許是有限的提升(“cherry on the cake”)。

爲克服這一限制,UDA通過一致性訓練框架(正如2.2節介紹的那樣),將有監督的數據增強技術的發展擴展到了有大量未標記數據的半監督學習,儘可能的去利用大量未標記數據,這也正是論文名字——無監督數據增強(Unsupervised Data Augmentation)的由來。

UDA在六個文本分類任務上結合當前如日中天的BERT遷移學習框架進行了實驗。遷移學習框架分別爲:(1)Random:隨機初始化的Transformer;(2):BERT_base;(3):BERT_large;(4):BERT_finetune:基於BERT_large在domain數據集上繼續進行預訓練;

四、總結

本文針對「如何解決少樣本困境?」,從「文本增強」和「半監督學習」兩個角度進行了介紹,簡單總結如下:

  1. 文本增強提供了原有標註數據缺少的歸納偏差,在少樣本場景下通常會取得穩定、但有限的性能提升;更高級、更多樣化和更自然的增強方法效果更佳。
  2. 融合文本增強+半監督學習技術是一個不錯的選擇。半監督學習中一致性正則能夠充分利用大量未標註數據,同時能夠使輸入空間的變化更加平滑,從另一個角度來看,降低一致性損失實質上也是將標籤信息從標註數據傳播到未標註數據的過程。

在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章