“哪吒”出世!华为开源中文版BERT模型

 自Google于2018年发布预训练语言模型BERT ,并在11项自然语言处理(NLP)任务上取得最好成绩,预训练语言模型开始得到学术界和工业界的极大关注,已经成为自然语言处理的新范式。各个公司和高校的研究团队陆续推出了新的预训练语言模型,并不断刷新NLP任务上的记录,如CMU和Google推出的XLnet ,Facebook AI推出的RoBERTa ,百度推出的ERNIE 等。

  华为诺亚方舟实验室语音语义团队与海思、云BU等团队合作,共同研究大规模预训练模型的训练技术,发布了自己的中文预训练语言模型NEZHA(NEural ContextualiZed Representation for CHinese LAnguage Understanding,中文:哪吒)。

  当前版本的NEZHA基于BERT模型,并进行了多处优化,能够在一系列中文自然语言理解任务达到先进水平。

  NEZHA的技术报告发布在:https://arxiv.org/abs/1909.00204,

  模型和代码开源在:https://github.com/huawei-noah/Pretrained-Language-Model 。

  NEZHA预训练语言模型

  NEZHA是基于预训练语言模型BERT的改进模型,BERT通过使用大量无监督文本进行预训练,其包含两个预训练任务:Masked Language Modeling(MLM)和Next Sentence Prediction (NSP),分别预测句子里被Mask的字(在构造训练数据时,句子里的部分字被Mask)和判断训练句对里面是不是真实的上下句。

  在具体的一个下游自然语言理解任务上,BERT经过在该任务上的微调就能够将预训练学到的语义信息成功迁移到下游任务上。诺亚方舟实验室的中文预训练语言模型NEZHA(哪吒)基于BERT在模型,预训练任务和训练算法三个维度进行了改进。

  模型改进:BERT的网络架构是一个多层的Transformer网络,由于Transformer并没有直接考虑输入的token的位置信息,原始的Transformer模型和BERT分别采用了函数式和参数式的绝对位置编码方式,即每一个位置上的输入的token会叠加一个与位置信息相关的一个embedding(这个embedding称为绝对位置编码:absolute position embedding,APE),前者的位置编码是一个与位置相关的函数,后者则是模型参数的一部分,在预训练过程中学到的。此后,又有工作提出了相对位置编码方式,即在每一层计算隐状态的相互依赖的时候考虑他们之间的相对位置关系,这个相对位置信息表示为一个相对位置编码(relative position embedding,RPE),已有工作均在相对位置编码中加入了可学习的参数。本工作在BERT模型中使用了完全函数式的相对位置编码(相对位置编码没有任何需要学习的参数),实验结果表明该位置编码方式使得模型在各个下游任务上的效果均得到明显提升。

  预训练任务:本工作引入了全词Mask技术,即不同于原始的BERT模型Mask单个中文字,该技术在MLM预训练任务中Mask整个词而不是单个字(如下图全词Mask方法Mask了一整个词“华为”),进而提升了任务难度使得BERT学到更多语义信息。

  此外,借鉴SpanBERT ,NEZHA模型还引入了Span预测任务,该任务Mask一个连续的Span(例如下图中“机”,“很”,“不”三个字),利用Span前后的两个字的最上层表示(下图中的x3和x7)以及待预测字的位置信息来预测该字,如下图中,待预测字为“不”,Span预测任务会使用x3,x7和“不“”这个字的位置信息(就是x3和x6还有x6和x7之间的相对位置编码)来预测该字,“机”和“很”的预测也是同样的方法。该方法使得Span前后的字的表示会包含Span中字的语义信息,由于在训练过程中,一个句子会被随机Mask很多次,所以句子中每个字都有机会成为Span的前后字,进而使得各个字学到的表示都会包含周围Span的信息,Span预测任务能够有效提高模型在下游的Span抽取任务(此任务的目标是获取一段文字中目标片段的开始和结束位置)的效果。

  训练算法:在训练过程中,我们采用混合精度训练(Mixed Precision Training)方式,在传统的深度学习训练过程中,所有的变量包括weight,activation和gradient都是用FP32(单精度浮点数)来表示。而在混合精度训练过程中,每一个step会为模型的所有weight维护一个FP32的copy,称为Master  Weights,在做前向和后向传播过程中,Master Weights会转换成FP16(半精度浮点数)格式,权重,激活函数和梯度都是用FP16进行表示,最后梯度会转换成FP32格式去更新Master Weights。优化器方面我们使用了LAMB优化器,通常在深度神经网络训练的Batch Size很大的情况下(超过一定阈值)会给模型的泛化能力带来负面影响,而LAMB优化器通过一个自适应式的方式为每个参数调整learning rate,能够在Batch Size很大的情况下不损失模型的效果,使得模型训练能够采用很大的Batch Size,进而极大提高训练速度。在训练BERT的研究中,使用LAMB优化器在不损失模型效果的前提下,Batch Size达到了超过30k,使得BERT的训练时间从3天降到了76分钟。

  实验结果

  NEZHA模型的实验中采用了5个中文自然语言理解任务,即CMRC(中文阅读理解),XNLI(自然语言推断),LCQMC(句义匹配),PD-NER (命名实体识别任务),ChnSenti(情感分类)。我们在中文维基百科,中文新闻,百度百科数据上训练NEZHA模型,并且和谷歌发布的中文BERT,以及哈工大和科大讯飞(002230,股吧)联合发布的BERT-WWM,还有百度发布的ERNIE-Baidu进行了比较。从下表可以看出,NEZHA在XNLI,LCQMC,PeoplesDaily NER,ChnSenti任务上达到了先进水平(SOTA)。表中NEZHA,NEZHA-WWM和NEZHA-Span分别代表由原始的BERT预训练任务训练得到的,加入全词Mask训练得到的以及加入Span预测任务训练得到的NEZHA模型(三者均使用了全函数式相对位置编码)。

  本工作还对NEZHA模型进行了剥离式研究(Ablation Study),着重研究了以下几个训练因素对模型效果的影响:

  1.    位置编码:我们比较了NEZHA模型中使用的函数式相对位置编码相比于已有工作中使用的参数式绝对位置编码和参数式相对位置编码的效果

  2.    Masking策略:我们研究了全词Mask(WWM)的效果

  3.    Span预测任务:我们研究了Span预测任务针对阅读理解任务(CMRC)的效果

  4.    训练序列的长度:用更长的序列训练是否能够带来效果提升

  5.    训练语料的大小:用更大的语料进行训练是否能够带来提升

  下表展示了剥离式研究的结果,从下表可以看出以上四个技术(即函数式相对位置编码,全词Mask,用更长的序列,更多语料进行训练)均能够提升模型的整体效果。尤其是函数式相对位置编码,相比于其他两种位置编码给模型效果带来了显著提升。Span预测任务显著提升了模型在阅读理解任务(CMRC)上的效果。

  结论与展望

  本文介绍了华为诺亚方舟实验室训练的中文预训练语言模型NEZHA,并阐述了其中预训练所用到的技术,包括:函数式相对位置编码,混合精度训练等,实验结果表明NEZHA模型在一系列中文自然语言理解任务上达到了先进水平。在今后的研究中,我们会探索NEZHA预训练的改进方案,并且探索基于NEZHA的自然语言生成的任务以及多语言模型的研究与实践。

  关于模型名称(哪吒)的寓意:预训练语言模型历来有使用卡通人物名称命名的传统,如:Google发布的BERT模型,百度发布的ERNIE模型等,华为诺亚方舟实验室采用“哪吒”,一个中国传统神话人物,也是最近很热门的一个动画片主角,同时也表示我们的模型像哪吒那样三头六臂,威力无比,大力出奇迹,可以处理很多不同的自然语言任务。

  本文经授权转载自诺亚实验室

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章