18-19年基於預訓練的語言模型對比
ref:後BERT時代:15個預訓練模型對比分析與關鍵點探究
1. 模型對於長距離依賴的處理能力
Transformer-XL > Transformer > RNNs > CNNs
2. 前饋/循環網絡 or 串行/並行計算
MLP/CNNs/Transformer:前饋/並行
RNNs/ Transformer-XL:循環/串行
3. 自迴歸vs自編碼
自迴歸:文本序列聯合概率的密度估計,爲傳統語言模型,天然適合處理文本生成任務。問題是文本序列是有序拆解的,無法同時構建上下文的特徵表徵。
自編碼:降噪自編碼特徵表示,引入噪聲mask構建MLM,獲得上下文相關的雙向特徵表示,問題是這麼做的前提是引入了獨立性假設,假設單詞之間都是相互獨立的。這樣的聯合估計爲有偏估計,沒有考慮預測mask之間的相關性,所以不適合處理生成任務。
4.BiLSTM
不能用BiLSTM做雙向語言模型的原因是因爲會出現標籤泄露,所以ELMo中的兩個LSTM是獨立訓練的,並不共享參數,否則mask就沒意義了。
5. BERT擅長處理的NLP任務
句子級別的任務,處理句子,段落間的匹配任務(需要輸入句子對,效果很好)
適合處理高層語義提取任務,對淺層語義提取任務的提升不大
6. BERT如何引入知識
ERNIE1.0 在預訓練階段引入知識圖譜,使用了三種mask的策略:basic level masking,phrases-level masking,entity-level masking.
ERNIE2.0 將文本中的實體對齊到外部的知識圖譜中,並使用知識嵌入得到實體向量+句子向量作爲輸入
7. mask都有哪幾種策略
BERT:mask word
BERT WWM:mask whole word
ERNIE: mask entity
SpanBERT: 使用隨機masking,旨在隱式學習預測詞,拋棄掉詞內部的關係,並使用模型學習這種關係
8. XLNet
提出XLNet旨在同時囊括自迴歸和自編碼模型的優點,拋去他們的缺點。
使用自迴歸語言模型,並引入排列語言模型PLM,Two-steam self attention等內容。