18-19基於預訓練的語言模型對比

原創

2020-05-26 04:31

18-19年基於預訓練的語言模型對比

ref：後BERT時代：15個預訓練模型對比分析與關鍵點探究

1. 模型對於長距離依賴的處理能力

Transformer-XL > Transformer > RNNs > CNNs

2. 前饋/循環網絡 or 串行/並行計算

MLP/CNNs/Transformer：前饋/並行
RNNs/ Transformer-XL：循環/串行

3. 自迴歸vs自編碼

自迴歸：文本序列聯合概率的密度估計，爲傳統語言模型，天然適合處理文本生成任務。問題是文本序列是有序拆解的，無法同時構建上下文的特徵表徵。
自編碼：降噪自編碼特徵表示，引入噪聲mask構建MLM，獲得上下文相關的雙向特徵表示，問題是這麼做的前提是引入了獨立性假設，假設單詞之間都是相互獨立的。這樣的聯合估計爲有偏估計，沒有考慮預測mask之間的相關性，所以不適合處理生成任務。

4.BiLSTM

不能用BiLSTM做雙向語言模型的原因是因爲會出現標籤泄露，所以ELMo中的兩個LSTM是獨立訓練的，並不共享參數，否則mask就沒意義了。

5. BERT擅長處理的NLP任務

句子級別的任務，處理句子，段落間的匹配任務（需要輸入句子對，效果很好）
適合處理高層語義提取任務，對淺層語義提取任務的提升不大

6. BERT如何引入知識

ERNIE1.0 在預訓練階段引入知識圖譜，使用了三種mask的策略：basic level masking，phrases-level masking，entity-level masking.

ERNIE2.0 將文本中的實體對齊到外部的知識圖譜中，並使用知識嵌入得到實體向量+句子向量作爲輸入

7. mask都有哪幾種策略

BERT：mask word
BERT WWM：mask whole word
ERNIE: mask entity
SpanBERT: 使用隨機masking，旨在隱式學習預測詞，拋棄掉詞內部的關係，並使用模型學習這種關係

8. XLNet

提出XLNet旨在同時囊括自迴歸和自編碼模型的優點，拋去他們的缺點。
使用自迴歸語言模型，並引入排列語言模型PLM，Two-steam self attention等內容。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

18-19基於預訓練的語言模型對比

18-19年基於預訓練的語言模型對比

1. 模型對於長距離依賴的處理能力

2. 前饋/循環網絡 or 串行/並行計算

3. 自迴歸vs自編碼

4.BiLSTM

5. BERT擅長處理的NLP任務

6. BERT如何引入知識

7. mask都有哪幾種策略

8. XLNet

18-19基於預訓練的語言模型對比

Summary 知識圖譜融合與知識圖譜對齊

可建模語義分層的KG embedding for relation/link completion

BERT的應用和反思

論文筆記：NLP之BERT，ERNIE(pre-training 模式在NLP任務中的使用)

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結