NLP中的自監督表示學習

文章目錄

轉載來源：https://mp.weixin.qq.com/s/eROWWPQkUs91bcv4VsQqSA

雖然計算機視覺在自監督學習方面取得了驚人的進展，但在很長一段時間內，自監督學習一直是NLP研究領域的一等公民。語言模型早在90年代就已經存在，甚至在“自我監督學習”這個術語出現之前。2013年的Word2Vec論文推廣了這一模式，在許多問題上應用這些自監督的方法，這個領域得到了迅速的發展。

這些自監督的方法的核心是一個叫做 “pretext task” 的框架，它允許我們使用數據本身來生成標籤，並使用監督的方法來解決非監督的問題。這些也被稱爲**“auxiliary task”** 或 “pre-training task”。通過執行此任務獲得的表示可以用作我們的下游監督任務的起點。

在這篇文章中，我將概述研究人員在沒有明確的數據標註的情況下從文本語料庫中學習表示的各種pretext tasks。本文的重點是任務的制定，而不是實現它們的架構。

自監督的方案

1. 預測中心詞

在這個公式中，我們取一定窗口大小的一小塊文本，我們的目標是根據周圍的單詞預測中心單詞。

例如，在下面的圖中，我們有一個大小爲1的窗口，因此我們在中間單詞的兩邊各有一個單詞。使用這些相鄰的詞，我們需要預測中心詞。

這個方案已經在著名的Word2Vec論文的 “Continuous Bag of Words” 方法中使用過。

2. 預測鄰居詞

在這個公式中，我們取一定窗口大小的文本張成的空間，我們的目標是在給定中心詞的情況下預測周圍的詞。

這個方案已經在著名的Word2Vec論文的 “skip-gram” 方法中實現。

3. 相鄰句子的預測

在這個公式中，我們取三個連續的句子，設計一個任務，其中給定中心句，我們需要生成前一個句子和下一個句子。它類似於之前的skip-gram方法，但適用於句子而不是單詞。

這個方案已經在Skip-Thought Vectors的論文中使用過。

4. 自迴歸語言建模

在這個公式中，我們取大量未標註的文本，並設置一個任務，根據前面的單詞預測下一個單詞。因爲我們已經知道下一個來自語料庫的單詞是什麼，所以我們不需要手工標註的標籤。

例如，我們可以通過預測給定前一個單詞的下一個單詞來將任務設置爲從左到右的語言建模。

我們也可以用這個方案來通給定未來的單詞預測之前的單詞，方向是從右到左。

這個方案已經使用在許多論文中，從n-gram模型到神經網絡模型比如神經概率語言模型 (GPT) 。

5. 掩碼語言建模

在這個方案中，文本中的單詞是隨機掩碼的，任務是預測它們。與自迴歸公式相比，我們在預測掩碼單詞時可以同時使用前一個詞和下一個詞的上下文。

這個方案已經在BERT、RoBERTa和ALBERT的論文中使用過。與自迴歸相比，在這個任務中，我們只預測了一小部分掩碼詞，因此從每句話中學到的東西更少。

6. 下一個句子預測

在這個方案中，我們取文件中出現的兩個連續的句子，以及同一文件或不同文件中隨機出現的另一個句子。

然後，任務是區分兩個句子是否是連貫的。

在BERT的論文中，它被用於提高下游任務的性能，這些任務需要理解句子之間的關係，比如自然語言推理(NLI)和問題回答。然而，後來的研究對其有效性提出了質疑。

7. 句子順序的預測

在這個方案中，我們從文檔中提取成對的連續句子。然後互換這兩個句子的位置，創建出另外一對句子。

我們的目標是對一對句子進行分類，看它們的順序是否正確。

在ALBERT的論文中，它被用來取代“下一個句子預測”任務。

8. 句子重排

在這個方案中，我們從語料庫中取出一個連續的文本，並破開的句子。然後，對句子的位置進行隨機打亂，任務是恢復句子的原始順序。

它已經在BART的論文中被用作預訓練的任務之一。

9. 文檔旋轉

在這個方案中，文檔中的一個隨機token被選擇爲旋轉點。然後，對文檔進行旋轉，使得這個token成爲開始詞。任務是從這個旋轉的版本中恢復原來的句子。

它已經在BART的論文中被用作預訓練的任務之一。直覺上，這將訓練模型開始識別文檔。

10. 表情符號預測

這個方案被用在了DeepMoji的論文中，並利用了我們使用表情符號來表達我們所發推文的情感這一想法。如下所示，我們可以使用推特上的表情符號作爲標籤，並制定一個監督任務，在給出文本時預測表情符號。

DeepMoji的作者們使用這個概念對一個模型進行了12億條推文的預訓練，然後在情緒分析、仇恨語言檢測和侮辱檢測等與情緒相關的下游任務上對其進行微調。

英文原文：https://amitness.com/2020/05/self-supervised-learning-nlp/

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

NLP中的自監督表示學習

文章目錄

1. 預測中心詞

2. 預測鄰居詞

3. 相鄰句子的預測

4. 自迴歸語言建模

5. 掩碼語言建模

6. 下一個句子預測

7. 句子順序的預測

8. 句子重排

9. 文檔旋轉

10. 表情符號預測

文本生成評價指標的進化與推翻

NLP 任務中有哪些巧妙的 idea？

給你的數據加上槓杆：文本增強技術的研究進展及應用實踐

HeterSumGraph，異質圖神經網絡的抽取式摘要模型

萬字長文帶你一覽ICLR2020最新Transformers進展

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結