NLP數據增強方法

分類的增強方法

EDA-Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks

提出了數據增強方法:

  • synonym replacement(SR):隨機選取句子中n個非停用詞的詞語。對於每個詞語隨機選取它的一個同義詞替換該詞語。

  • random insertion(RI):隨機選取句子中的一個非停用詞的詞語,隨機選取這個詞語的一個近義詞,將近義詞隨機插入到句子中,做n次。

  • random swap(RS):隨機選取兩個詞語,交換他們的位置,做n次。

  • random deletion(RD):對於句子中的每個詞語,以概率p選擇刪除。

在五個分類數據集上,EDA提升了RNN和CNN表現。

問題:

  • 對於每個句子,短句相比於長句,吸收同樣的n個詞噪音,更可能導致類別標籤發生變化。

原文是長句具備更好的噪聲吸收能力。

因此引入了補償機制:在SR、RI、RS中,對於每句話詞語變化個數n,
n=αl n=\alpha l
其中ll是句子的長度,α\alpha是一個超參數,表示句子中需要被改變的詞語的百分比。

  • 個人認爲SR、RI、RS、RD很可能會改變句子的標籤,其實確定標籤沒有改變也是非常重要。

實驗

對於同義詞,之前已經有過證明,實驗增加對RI/RS/RD做了實驗驗證。

EDA是否改變了標籤?

通過原始數據訓練一個RNN模型,然後在測試集中每個句子通過EDA獲得9個增強的句子,輸入到模型中,獲取其最後一層的向量輸出,通過t-SNE算法將向量轉爲2維表達並繪製2D圖形,發現增強的句子與原始句子的周圍且距離很近,因此認爲其標籤並未改變。

針對分類問題,評估類別標籤是否變化,使用此方法講得通,但是是建立在一個假設基礎上:即訓練的分類RNN模型的向量表達是準確的,而分類模型在原始的小批量數據上訓練而成,本身就是不夠魯棒的(論文本身要證明的就是這一點)。

個人感覺衆包review更爲可信,對於論文發表來說沒啥技術含量且冗長,而且也與數據增強初衷違背。

但是NER問題的增強EDA可能不太適合使用,槽位值很可能因爲隨機替換之類的操作而改變。

更新中。。。

reference

發佈了58 篇原創文章 · 獲贊 219 · 訪問量 42萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章