自然语言处理_中文预训练词向量的主要区别整理

模型 出处 说明
bert_base google transformer
BERT-wwm 哈工大 在原始bert-base的基础上引入whole word mask,其实就是分词后的词进行mask
ernie1.0 百度 token,entity,phrase进行mask。除此之外,本论文中还引入了对话语料,丰富语料的来源,并针对对话语料,给出了一个和NSP相似的任务
ernie2.0 百度,未开源中文 引入了多大7个任务来预训练模型,并且采用的是逐次增加任务的方式来预训练
roberta Facebook 动态Masking,bert的masking做好就不换了;nsp取消;增大数据
albert google (1)对Embedding因式分解(2)跨层的参数共享(3)句间连贯(4)移除dropout
ELECTRA 提出了一种更有效样本的预训练任务,称为替换Token检测。我们的方法不是掩盖输入,而是通过使用从小型生成网络采样Mask替换一些输入Token来破坏输入。然后,我们训练一个判别模型,该模型可以预测损坏的输入中的每个Token是否被生成器样本替换。(一种GAN的思想)
XLNet 大型双向transformer
GPT2 OpenAI
ernie
ernie
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章