18-19基於預訓練的語言模型對比

18-19年基於預訓練的語言模型對比

ref:後BERT時代:15個預訓練模型對比分析與關鍵點探究

1. 模型對於長距離依賴的處理能力

Transformer-XL > Transformer > RNNs > CNNs

2. 前饋/循環網絡 or 串行/並行計算

MLP/CNNs/Transformer:前饋/並行
RNNs/ Transformer-XL:循環/串行

3. 自迴歸vs自編碼

自迴歸:文本序列聯合概率的密度估計,爲傳統語言模型,天然適合處理文本生成任務。問題是文本序列是有序拆解的,無法同時構建上下文的特徵表徵。
自編碼:降噪自編碼特徵表示,引入噪聲mask構建MLM,獲得上下文相關的雙向特徵表示,問題是這麼做的前提是引入了獨立性假設,假設單詞之間都是相互獨立的。這樣的聯合估計爲有偏估計,沒有考慮預測mask之間的相關性,所以不適合處理生成任務。

4.BiLSTM

不能用BiLSTM做雙向語言模型的原因是因爲會出現標籤泄露,所以ELMo中的兩個LSTM是獨立訓練的,並不共享參數,否則mask就沒意義了。

5. BERT擅長處理的NLP任務

句子級別的任務,處理句子,段落間的匹配任務(需要輸入句子對,效果很好)
適合處理高層語義提取任務,對淺層語義提取任務的提升不大

6. BERT如何引入知識

ERNIE1.0 在預訓練階段引入知識圖譜,使用了三種mask的策略:basic level masking,phrases-level masking,entity-level masking.

ERNIE2.0 將文本中的實體對齊到外部的知識圖譜中,並使用知識嵌入得到實體向量+句子向量作爲輸入

7. mask都有哪幾種策略

BERT:mask word
BERT WWM:mask whole word
ERNIE: mask entity
SpanBERT: 使用隨機masking,旨在隱式學習預測詞,拋棄掉詞內部的關係,並使用模型學習這種關係

8. XLNet

提出XLNet旨在同時囊括自迴歸和自編碼模型的優點,拋去他們的缺點。
使用自迴歸語言模型,並引入排列語言模型PLM,Two-steam self attention等內容。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章