文章目录
1.前言
最近重新阅读了BERT和ALBERT文章,所以写下自己的一些感悟。这两篇文章都是Google发出来的。其中BERT是2018年,在Transformer的基础上进行扩展;而ALBERT发表在2020年ICLR上,它是基础BERT来进行改进。
- BERT论文
- ALBERT论文
2. BERT
BERT全称是Bidirectional Encoder Representations from Transformers,它通过连接从左到右和从右到左的文本,设计了一个预处理的深度双向表达模型。在fine-tuned阶段,只需要增加简单的输出层,就可以在BERT模型基础上达到SOTA的效果。
BERT在GLUE数据集上能够达到80.4%,在MultiNLI上则有86.7%,在SQuAD v1.1则有93.2%。
2.1 引入
在NLP场景中,预处理的模型往往能够提升下游任务的效果。在natural language inference(语言推断)、relation classification、NER和QA任务中,预处理的语言模型都是有效果的。
预处理的语言模型到下游任务中,主要有两种策略方法:
- feature-based方法:类似于ELMO那样,设计了一个比较精细的结构,作为额外的特征进行输入。
- fine-tuning 方法:类似于Transformer和GPT那样的模型,它们可以在下游任务中进行简单的调节参数,使得模型适应于下游任务。
这些方法都是单方向(unidirectional)的语言模型。
BERT引入了两个预处理时的学习目标,包括:Masked language model(MLM)、next sentence predicton(NSP)。
- MLM:随机掩盖一部分的tokens,然后对这些词语进行预测。这可以使得模型因为不知道是要预测哪些词语,所以必须要学习“从左到右”和“从右到左”的文本信息。
- NSP:输入两个句子,判断这两个句子是否是连贯性的句子。
2.2 以前的工作
2.2.1 feature-based 方法
预处理得到的词向量能够作为模型的输入,这会带来大量的特征信息,提升之后的任务效果。
在ELMO中,生成了比较传统的词向量。它们提出上下文敏感的特征,能够表征复杂语境下的词语语义。
2.2.2 fine-tuning 方法
在有监督的下游任务微调模型之前,预先训练一些关于LM目标的模型架构。这种方法就是提前训练好了一个模型(提前训练的模型通常是用无监督的方法训练的),在下游任务中几乎不需要从头开始学习模型参数。GPT模型就是这种做法。
2.2.3 迁移学习方法
在有监督的数据集中训练一个模型,然后把训练好的模型迁移到另一个数据集中进行训练学习。这种方法也不需要模型从新训练,但是需要大量的有监督数据集。
2.3 BERT架构
论文中训练了两个基础的BERT:
名称 | Transformer的层数 | 隐藏层大小 | self-attention head的数量 | 总参数数量 |
---|---|---|---|---|
BERT_base | 12 | 768 | 12 | 110M |
BERT_large | 24 | 1024 | 16 | 340M |
可以看到BERT模型的参数量是很大的。它在输入表达中构建了三层的词语嵌入,同时设计了两个预训练时的任务(MLM,NSP)
- BERT的输入:
(1)Token embedding:句子中每个词语的词向量输入,使用了wordpiece方法。[CLS]和[SEP]代表的是输入句子的开头和结尾;[SEP]则分割了两个输入句子
(2)Segment embedding:句子向量,在代码实现中,把第一个句子设计成0,第二个句子设计成1,然后随机初始化
(3)Position embedding:词语的位置向量。
接下来介绍两个预训练的任务:MLM,SNP
2.3.1 MLM
为了实现真正的深度双向模型,所以使用了随机掩码。使用mask的原因是为了防止模型在双向循环训练的过程中“预见自身”。于是,文章中选取的策略是对输入序列中15%的词使用[MASK]标记掩盖掉,然后通过上下文去预测这些被mask的词语。但是为了防止模型过拟合地学习到【MASK】这个标记,对15%mask掉的词进一步优化:
- 以80%的概率用[MASK]替换:my dog is hairy ----> my dog is [MASK]
- 以10%的概率随机替换:my dog is hairy ----> my dog is apple
- 以10%的概率不进行替换:my dog is hairy ----> my dog is hairy
2.3.2 NSP
为了让模型能够学习到句子之间关系,则预训练任务中加入了“预测下一句”的任务,这是一个二值分类任务。也即是说输入句子中包括了两个句子A和B。
- 50%的B句子是A句子的下一个句子
- 另外50%的句子则是从数据集中随机抽取出来的。
例如例子:
Input = [CLS] the man went to [MASK] store [SEP] he bought a gallon [MASK] milk [SEP]
Label = IsNext
Input = [CLS] the man [MASK] to the store [SEP] penguin [MASK] are flight ##less birds [SEP]
Label = NotNext
2.4 实验
接下来看一下实验部分。首先需要说明BERT在不同数据集中输出的部分都不一致。
- (a)图主要用来适应两个句子的输入。获取[CLS]位置的输出,把它作为句子向量,然后预测类别。(适合句子推断等任务)
- (b)图主要用来适应单个句子的输入。获取[CLS]位置的输出,把它作为句子向量,然后预测类别。(适合句子分类等任务)
- (c)图主要用来适应QA任务,输入的是question和paragraph,输出找到的answer。
- (d)图主要用来做序列标注。
2.4.1 BERT模型的效果
上面可以看出,对比几个模型,BERT的效果都大于现有的模型
在CoNLL-2003的NER任务中,也比传统的LSTM+CRF要高。
2.4.2 验证性实验
(1)主要验证MLM的效果。
- no NSP:没有使用NSP任务训练,仅仅使用MLM任务
- LTR & NO NSP:把MLM任务换成left to right(LTR)任务,也就是放弃了随机mask,改成按照顺序预测每一个词语
- +BiLSTM:在LTR & NO NSP任务上,输出层加了BiLSTM。
从图上的实验效果可以看出,使用MLM的模型会比LTR模型的效果要好很多。这侧面证实了MLM可以让模型保持双向的上下文内容的学习。
(2)参数实验
BERT的层数L越多,隐藏层大小H越多,效果越好
(3)MNLI数据集上的收敛速度
MLM的收敛速度确实比LTR模式稍慢。然而,就绝对准确度而言,MLM几乎立刻就开始超越LTR模式
(4)BERT当feature-based来用(在Conll-2003数据集上)
实验中在BERT输出之后加一层BLSTM进行分类。如果把所有层的输出加起来,得到的效果最好。
3.ALBERT
4. 参考
(1)BERT源码分析PART II:https://blog.csdn.net/Kaiyuan_sjtu/article/details/90288178
(2)BERT论文:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》
(3)ALBERT论文:《ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS》