分類的增強方法

EDA-Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks

提出了數據增強方法：

在五個分類數據集上，EDA提升了RNN和CNN表現。

問題：

原文是長句具備更好的噪聲吸收能力。

因此引入了補償機制：在SR、RI、RS中，對於每句話詞語變化個數n,
$n=\alpha l$
其中 $l$ 是句子的長度， $\alpha$ 是一個超參數，表示句子中需要被改變的詞語的百分比。

實驗

對於同義詞，之前已經有過證明，實驗增加對RI/RS/RD做了實驗驗證。

通過原始數據訓練一個RNN模型，然後在測試集中每個句子通過EDA獲得9個增強的句子，輸入到模型中，獲取其最後一層的向量輸出，通過t-SNE算法將向量轉爲2維表達並繪製2D圖形，發現增強的句子與原始句子的周圍且距離很近，因此認爲其標籤並未改變。

針對分類問題，評估類別標籤是否變化，使用此方法講得通，但是是建立在一個假設基礎上：即訓練的分類RNN模型的向量表達是準確的，而分類模型在原始的小批量數據上訓練而成，本身就是不夠魯棒的（論文本身要證明的就是這一點）。

個人感覺衆包review更爲可信，對於論文發表來說沒啥技術含量且冗長，而且也與數據增強初衷違背。

但是NER問題的增強EDA可能不太適合使用，槽位值很可能因爲隨機替換之類的操作而改變。

更新中。。。

發佈了58 篇原創文章 · 獲贊 219 · 訪問量 42萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.