幾個與BERT相關的預訓練模型分享-ERNIE,XLM,LASER,MASS,UNILM

基於Transformer的預訓練模型彙總

1. ERNIE: Enhanced Language Representation with Informative Entities(THU)

特點:學習到了語料庫之間得到語義聯繫,融合知識圖譜到BERT中,本文解決了兩個問題,structured knowledge encoding 和 Heterogeneous Information Fusion(如何融合語言的預訓練向量空間和知識表徵的向量空間)

因此,本文提出了同時在大規模語料庫和知識圖譜上預訓練語言模型

  1. 信息抽取+編碼知識信息:識別文本中的實體,並將實體與KG中的實體對齊(用knowledge embedding方法),得到的entity embedding作爲ERNIE的輸入,這樣ERNIE將知識模塊的實體表徵正和島予以模塊的隱藏層中。
  2. 語言模型訓練,使用了MLM+NSP+隨機mask實體的方法

模型結構:
ERNIE的模型結構

如圖所示,其中T-encoder用來提取輸入端的基礎詞法信息,這部分與BERT一樣,把從embedding層輸入的文本送到Transformer中做特徵提取。K-enocder是本文的創新點,用來將外部的指示圖信息融入。其中外部信息包括T-encoder的結果和TransE計算出的知識嵌入。

2. ERNIE: Enhanced Representation through Knowledge Integration (ERNIE2.0)

本文中正式引入了continual learning以達成多任務模型,爲了解決多種任務,作者新增了task embedding。模型結構如下:
在這裏插入圖片描述
在這裏插入圖片描述
如圖所示,任務被分成了三類:

  1. Word-aware Pre-training Tasks:其中包括knowledge masking task(常規mask),Capitalization prediction task(預測大寫),Token-Document relation prediction task(預測某一個段落的token是否出現在同一篇文檔的另外段落中)。
  2. Structure-aware Pre-training Tasks:包括Sentence Reordering Task(把一段話分割成多個片段進行重排順序),Sentence distance task(預測句子之間的距離,三分類任務)
  3. Semantic-aware Pre-training Tasks:包括Disclosure relation task(預測句子間的語義關係),IR relevance task(信息解鎖文本的相關性)

3. ERNIE-Tiny

作爲輕量版的預訓練模型,Tiny的體積要比base小很多,運行速度也比ERNIE-base快了4.3倍。Tiny使用了更淺的模型,更大的hidden-size,使用了subword代替char(增大了詞粒度,縮小了文本長度),同時也使用了知識蒸餾的方法(tiny爲學生模型,base爲老師模型)。

Tiny中的知識蒸餾:在這裏插入圖片描述

關於如何縮小體積很大的預訓練模型,一般有以下幾種方法:

  1. 知識蒸餾Distillation:通過將大模型的知識提取,轉移導入到小模型中的過程。使用大模型作爲老師模型,通過輸入訓練數據到老師模型,用以訓練學生模型,使學生模型達到相似效果。
  2. 量化Quantization:將高精度的模型使用低精度表示,使模型變小
  3. 剪枝Pruning:減掉對結果無用的部分模型,精細化模型。剪枝的具體操作是將剪掉的部分模型參數設置爲0.分爲權重剪枝,神經元剪枝,權重矩陣剪枝。

4.Cross-lingual Language Model Pretraining

對於BERT的改進可以大體分爲兩個方向:第一個是縱向,即去研究bert模型結構或者算法優化等方面的問題,致力於提出一種比bert效果更好更輕量級的模型;第二個方向是橫向,即在bert的基礎上稍作修改去探索那些vanilla bert還沒有觸及的領域。直觀上來看第二個方向明顯會比第一個方向簡單,關鍵是出效果更快。本文就屬於第二類。

本文使用了跨語言的語言模型XLM,使用了兩種預訓練方法:

  1. 基於單語語料的無監督學習
  2. 基於跨語言的平行語料庫的有監督學習

其在幾個多語任務上比如XNLI和機器翻譯都拉高了SOTA。那麼我們就來看看具體的模型,整體框架和BERT是非常類似,修改了幾個預訓練目標。

  1. Shared sub-word vocabulary:目前的詞向量基本都是在單語言語料集中訓練得到的,所以其embedding不能涵蓋跨語言的語義信息。爲了更好地將多語言的信息融合在一個共享的詞表中,作者在文本預處理上使用了字節對編碼算法(「Byte Pair Encoding (BPE)」),大致思想就是利用單個未使用的符號迭代地替換給定數據集中最頻繁的符號對(原始字節)。這樣處理後的詞表就對語言的種類不敏感了,更多關注的是語言的組織結構。
  2. Masked Language modeling (MLM)
  3. Causal Language Modeling (CLM)
  4. Translation Language Modeling (TLM):是本文的核心,用有監督的跨語言並行數據訓練模型

5. Massively Multilingual Sentence Embeddings for Zero-Shot Cross-Lingual Transfer and Beyond

提出了LASER,使用單個模型解決多語言問題,模型結構:在這裏插入圖片描述

6. MASS: Masked Sequence to Sequence Pre-training for Language Generation

問題:傳統的BERT不能解決NLG生成問題。

不同於BERT僅使用Transformer的encoder,作者提出聯合訓練Transformer的encoder和decoder來解決這個問題。其中encoder訓練使用了MLM,decoder的訓練輸入爲與encoder一樣的句子,但是做相反的masking。

7.Unified Language Model Pre-training for Natural Language Understanding and Generation(Microsoft/2019)

同樣是爲了解決NLG問題,UNILM這個模型直接解決掉NLU和NLG兩方面的問題,是典型的的多任務模型。

預訓練模型的目標函數有三種:

  1. 單向語言模型,如ELMo,GPT
  2. 雙向語言模型,如BERT
  3. SeqSeq模型
    這三個函數使用一組Transformer進行訓練,參數共享。

目標函數示意:
在這裏插入圖片描述
模型輸入爲一串序列(或一對序列,依照目標函數的格式),在embedding部分與一般的BERT是一樣的,分成token/position/segment embedding.

mask部分使用了self attention,即爲對不同的模型使用不同的mask方法,目的是同意語言模型。本文中共有三種mask形式。依照三種目標函數定義:

在這裏插入圖片描述
在這裏插入圖片描述

在這裏插入圖片描述

8.結論

  1. 模型和數據都很大,但是最終出來的效果是美的,爭取往小而美的方向發展;
  2. 相比於BERT僅僅關注在encoder上,LASER的工作則是考慮了encoder-decoder的聯合訓練。從LASER模型框架上也可以看出其無法提取word級別的特徵,擅長於跨語言任務;
  3. 對於XLM和MASS都是涉及跨語言模型,補充了BERT在NLG任務上的不足。模型層面而言XLM沒有使用傳統的encoder-decoder框架,屬於比較討巧的方式;
  4. UNILM可以同時處理NLU和NLG任務,在GLUE上首次不加外部數據打贏了BERT。後續的改進可以考慮加入跨語言任務的預訓練,比如XLM和MASS做的工作。

Ref:
ERNIE: Enhanced Language Representation with Informative Entities(THU/ACL2019)
ERNIE2.0: A Continual Pre-training Framework for Language Understanding
ERNIE-tiny
Cross-lingual Language Model Pretraining
XLM – Enhancing BERT for Cross-lingual Language Model
Massively Multilingual Sentence Embeddings for Zero-Shot Cross-Lingual Transfer and Beyond
MASS: Masked Sequence to Sequence Pre-training for Language Generation
Unified Language Model Pre-training for Natural Language Understanding and Generation(Microsoft/2019)
芝麻街跨界NLP | 預訓練模型專輯(二)
芝麻街跨界NLP,沒有一個ERNIE是無辜的

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章