微調BERT:序列級和令牌級應用程序

微調BERT:序列級和令牌級應用程序

Fine-Tuning BERT for Sequence-Level and Token-Level Applications

爲自然語言處理應用程序設計了不同的模型,例如基於RNNs、CNNs、attention和MLPs。當存在空間或時間限制時,這些模型是有用的,然而,爲每個自然語言處理任務構建一個特定的模型實際上是不可行的。介紹了一個預訓練模型,BERT,要求對各種自然語言處理任務進行最小的體系結構更改。一方面,在提出這個建議的時候,BERT改進了各種自然語言處理任務的現狀。另一方面,如14.10節所述,原始BERT模型的兩個版本都有1.1億和3.4億個參數。因此,當有足夠的計算資源時,可以考慮爲下游自然語言處理應用程序微調BERT。

現在,將自然語言處理應用程序的子集概括爲序列級和令牌級。在序列層次上,介紹了在單文本分類和文本對分類或迴歸中如何將文本輸入的BERT表示轉換爲輸出標籤。在令牌級別,將簡要介紹新的應用程序,如文本標記和問答,並闡明BERT如何表示其輸入並轉換爲輸出標籤。在“微調”過程中,不同的應用程序需要“完全連接”不同的層。在下游應用程序的監督學習過程中,外層的參數從零開始學習,同時對預訓練的BERT模型中的所有參數進行微調。

  1. Single Text Classification

單一文本分類以單個文本序列爲輸入,輸出分類結果。除了在本章中研究的情感分析之外,語言可接受性語料庫(CoLA)也是一個用於單個文本分類的數據集,用於判斷給定句子在語法上是否可接受[Warstadt等人,2019]。例如,“應該學習”是可以接受的,但是“應該學習”則不是。
在這裏插入圖片描述
圖1針對單個文本分類應用(如情感分析和測試語言可接受性)的微調BERT。假設輸入的單個文本有六個標記。

描述了BERT的輸入表示。BERT輸入序列明確表示單個文本和文本對,其中特殊分類標記“”用於序列分類,特殊分類標記“”標記單個文本的結尾或分隔一對文本。如圖1所示,在單個文本分類應用中,特殊分類標記“”的BERT表示對整個輸入文本序列的信息進行編碼。作爲輸入單個文本的表示,將被輸入一個由完全連接(密集)層組成的小MLP,以輸出所有離散標籤值的分佈。

  1. Text Pair Classification or Regression

研究了自然語言推理。屬於文本對分類,是一種對文本進行分類的應用程序。
以一對文本作爲輸入,輸出一個連續值,語義文本相似度是一個流行的文本對迴歸任務。這個任務測量句子的語義相似性。例如,在語義-文本相似度基準數據集中,一對句子的相似度得分是一個從0(無意義重疊)到5(意義對等)的有序量表[Cer等人,2017]。目標是預測這些分數。語義-文本相似度基準數據集的示例包括(第1句、第2句、相似度得分):

· “A plane is taking off.”, “An air plane is taking off.”, 5.000;

· “A woman is eating something.”, “A woman is eating meat.”, 3.000;

· “A woman is dancing.”, “A man is talking.”, 0.000.
在這裏插入圖片描述
Fig. 2. Fine-tuning BERT for text pair classification or regression
applications, such as natural language inference and semantic textual
similarity. Suppose that the input text pair has two and three tokens.

與圖1中的單個文本分類相比,圖2中文本對分類的微調BERT在輸入表示上有所不同。對於文本對迴歸任務(如語義文本相似性),可以應用一些微小的更改,例如輸出連續的標籤值和使用均方損失:在迴歸中很常見。

  1. Text Tagging

現在讓考慮令牌級別的任務,例如文本標記,其中每個令牌都分配了一個標籤。在文本標註任務中,詞性標註根據詞在句子中的作用爲每個詞分配一個詞性標記(如形容詞和限定詞)。例如,根據Penn Treebank II標記集,句子“John Smith的汽車是新的”應該標記爲“NNP(名詞,固有單數)NNP POS(所有格結尾)NN(名詞,單數或質量)VB(動詞,基本形式)JJ(形容詞)”。
在這裏插入圖片描述
Fig. 3. Fine-tuning BERT for text tagging applications, such as
part-of-speech tagging. Suppose that the input single text has six tokens.

圖3說明了文本標記應用程序的微調BERT。與圖1相比,唯一的區別在於在文本標記中,輸入文本的每個標記的BERT表示被輸入到相同的額外完全連接的層中,以輸出標記的標籤,例如詞性標籤。

  1. Question Answering

問答作爲另一個符號級應用,反映了閱讀理解的能力。例如,斯坦福問答數據集(SQuAD v1.1)由閱讀段落和問題組成,每個問題的答案只是問題所在段落中的一段文本(文本跨度)[Rajpurkar等人,2016年]。爲了解釋這一點,可以考慮這樣一段話:“一些專家報告說,口罩的功效是不確定的。然而,口罩製造商堅持產品,如N95口罩,可以抵禦病毒?”. 答案應該是文中的“口罩製造者”。因此,SQuAD v1.1的目標是在給定一對問題和一段文章的情況下,預測文章的開始和結束。
在這裏插入圖片描述
Fig.4. Fine-tuning BERT for question answering. Suppose that the input text pair has two and three tokens.

爲了對BERT進行微調,在BERT的輸入中,將問題和段落分別打包爲第一和第二文本序列。爲了預測文本跨距開始的位置,相同的附加全連接層將從位置通道轉換任何令牌的BERT表示i變成標量分數si。所有通行令牌的這種分數通過softmax操作進一步轉換成概率分佈,使得每個令牌位置i有一個概率pi。作爲文本跨度的開始。預測文本跨距的結束與上述相同,只是其附加的完全連接層中的參數與用於預測開始的參數無關。在預測終點時,任何位置的通行標誌i由相同的完全連通層轉換爲標量分數ei。

eiei. :numref:fig_bert-qa描述了用於問答的微調BERT。

對於問題回答,監督學習的訓練目標與最大化地面真相起始和結束位置的對數可能性一樣簡單。在預測跨度時,可以計算得分si+ej,從位置開始有效跨距i到位置j(i≤j),輸出得分最高的跨度。

  1. Summary

· BERT requires minimal architecture changes (extra fully-connected layers) for sequence-level and token-level natural language processing applications, such as single text classification (e.g., sentiment analysis and testing linguistic acceptability), text pair classification or regression (e.g., natural language inference and semantic textual similarity), text tagging (e.g., part-of-speech tagging), and question answering.

· During supervised learning of a downstream application, parameters of the extra layers are learned from scratch while all the parameters in the pretrained BERT model are fine-tuned.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章