模型 | 出處 | 說明 |
---|---|---|
bert_base | transformer | |
BERT-wwm | 哈工大 | 在原始bert-base的基礎上引入whole word mask,其實就是分詞後的詞進行mask |
ernie1.0 | 百度 | token,entity,phrase進行mask。除此之外,本論文中還引入了對話語料,豐富語料的來源,並針對對話語料,給出了一個和NSP相似的任務 |
ernie2.0 | 百度,未開源中文 | 引入了多大7個任務來預訓練模型,並且採用的是逐次增加任務的方式來預訓練 |
roberta | 動態Masking,bert的masking做好就不換了;nsp取消;增大數據 | |
albert | (1)對Embedding因式分解(2)跨層的參數共享(3)句間連貫(4)移除dropout | |
ELECTRA | 提出了一種更有效樣本的預訓練任務,稱爲替換Token檢測。我們的方法不是掩蓋輸入,而是通過使用從小型生成網絡採樣Mask替換一些輸入Token來破壞輸入。然後,我們訓練一個判別模型,該模型可以預測損壞的輸入中的每個Token是否被生成器樣本替換。(一種GAN的思想) | |
XLNet | 大型雙向transformer | |
GPT2 | OpenAI | |
ernie | ||
ernie |
自然語言處理_中文預訓練詞向量的主要區別整理
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.