自然語言處理_中文預訓練詞向量的主要區別整理

模型 出處 說明
bert_base google transformer
BERT-wwm 哈工大 在原始bert-base的基礎上引入whole word mask,其實就是分詞後的詞進行mask
ernie1.0 百度 token,entity,phrase進行mask。除此之外,本論文中還引入了對話語料,豐富語料的來源,並針對對話語料,給出了一個和NSP相似的任務
ernie2.0 百度,未開源中文 引入了多大7個任務來預訓練模型,並且採用的是逐次增加任務的方式來預訓練
roberta Facebook 動態Masking,bert的masking做好就不換了;nsp取消;增大數據
albert google (1)對Embedding因式分解(2)跨層的參數共享(3)句間連貫(4)移除dropout
ELECTRA 提出了一種更有效樣本的預訓練任務,稱爲替換Token檢測。我們的方法不是掩蓋輸入,而是通過使用從小型生成網絡採樣Mask替換一些輸入Token來破壞輸入。然後,我們訓練一個判別模型,該模型可以預測損壞的輸入中的每個Token是否被生成器樣本替換。(一種GAN的思想)
XLNet 大型雙向transformer
GPT2 OpenAI
ernie
ernie
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章