【论文解读】BERT和ALBERT

原創

2020-03-12 21:49

文章目录

2.3 BERT架构

2.4 实验

1.前言

最近重新阅读了BERT和ALBERT文章，所以写下自己的一些感悟。这两篇文章都是Google发出来的。其中BERT是2018年，在Transformer的基础上进行扩展；而ALBERT发表在2020年ICLR上，它是基础BERT来进行改进。

BERT论文
ALBERT论文

2. BERT

BERT全称是Bidirectional Encoder Representations from Transformers，它通过连接从左到右和从右到左的文本，设计了一个预处理的深度双向表达模型。在fine-tuned阶段，只需要增加简单的输出层，就可以在BERT模型基础上达到SOTA的效果。

BERT在GLUE数据集上能够达到80.4%，在MultiNLI上则有86.7%，在SQuAD v1.1则有93.2%。

2.1 引入

在NLP场景中，预处理的模型往往能够提升下游任务的效果。在natural language inference（语言推断）、relation classification、NER和QA任务中，预处理的语言模型都是有效果的。

预处理的语言模型到下游任务中，主要有两种策略方法：

feature-based方法：类似于ELMO那样，设计了一个比较精细的结构，作为额外的特征进行输入。
fine-tuning 方法：类似于Transformer和GPT那样的模型，它们可以在下游任务中进行简单的调节参数，使得模型适应于下游任务。

这些方法都是单方向（unidirectional）的语言模型。

BERT引入了两个预处理时的学习目标，包括：Masked language model（MLM）、next sentence predicton（NSP）。

MLM：随机掩盖一部分的tokens，然后对这些词语进行预测。这可以使得模型因为不知道是要预测哪些词语，所以必须要学习“从左到右”和“从右到左”的文本信息。
NSP：输入两个句子，判断这两个句子是否是连贯性的句子。

2.2 以前的工作

2.2.1 feature-based 方法

预处理得到的词向量能够作为模型的输入，这会带来大量的特征信息，提升之后的任务效果。

在ELMO中，生成了比较传统的词向量。它们提出上下文敏感的特征，能够表征复杂语境下的词语语义。

2.2.2 fine-tuning 方法

在有监督的下游任务微调模型之前，预先训练一些关于LM目标的模型架构。这种方法就是提前训练好了一个模型（提前训练的模型通常是用无监督的方法训练的），在下游任务中几乎不需要从头开始学习模型参数。GPT模型就是这种做法。

2.2.3 迁移学习方法

在有监督的数据集中训练一个模型，然后把训练好的模型迁移到另一个数据集中进行训练学习。这种方法也不需要模型从新训练，但是需要大量的有监督数据集。

2.3 BERT架构

论文中训练了两个基础的BERT：

名称	Transformer的层数 $L$	隐藏层大小 $H$	self-attention head的数量 $A$	总参数数量
BERT_base	12	768	12	110M
BERT_large	24	1024	16	340M

可以看到BERT模型的参数量是很大的。它在输入表达中构建了三层的词语嵌入，同时设计了两个预训练时的任务（MLM，NSP）

BERT的输入：

（1）Token embedding：句子中每个词语的词向量输入，使用了wordpiece方法。[CLS]和[SEP]代表的是输入句子的开头和结尾；[SEP]则分割了两个输入句子
（2）Segment embedding：句子向量，在代码实现中，把第一个句子设计成0，第二个句子设计成1，然后随机初始化
（3）Position embedding：词语的位置向量。

接下来介绍两个预训练的任务：MLM，SNP

2.3.1 MLM

为了实现真正的深度双向模型，所以使用了随机掩码。使用mask的原因是为了防止模型在双向循环训练的过程中“预见自身”。于是，文章中选取的策略是对输入序列中15%的词使用[MASK]标记掩盖掉，然后通过上下文去预测这些被mask的词语。但是为了防止模型过拟合地学习到【MASK】这个标记，对15%mask掉的词进一步优化：

以80%的概率用[MASK]替换：my dog is hairy ----> my dog is [MASK]
以10%的概率随机替换：my dog is hairy ----> my dog is apple
以10%的概率不进行替换：my dog is hairy ----> my dog is hairy

2.3.2 NSP

为了让模型能够学习到句子之间关系，则预训练任务中加入了“预测下一句”的任务，这是一个二值分类任务。也即是说输入句子中包括了两个句子A和B。

50%的B句子是A句子的下一个句子
另外50%的句子则是从数据集中随机抽取出来的。

例如例子：

Input = [CLS] the man went to [MASK] store [SEP] he bought a gallon [MASK] milk [SEP]
Label = IsNext

Input = [CLS] the man [MASK] to the store [SEP] penguin [MASK] are flight ##less birds [SEP]
Label = NotNext

2.4 实验

接下来看一下实验部分。首先需要说明BERT在不同数据集中输出的部分都不一致。

（a）图主要用来适应两个句子的输入。获取[CLS]位置的输出，把它作为句子向量，然后预测类别。（适合句子推断等任务）
（b）图主要用来适应单个句子的输入。获取[CLS]位置的输出，把它作为句子向量，然后预测类别。（适合句子分类等任务）
（c）图主要用来适应QA任务，输入的是question和paragraph，输出找到的answer。
（d）图主要用来做序列标注。

2.4.1 BERT模型的效果

上面可以看出，对比几个模型，BERT的效果都大于现有的模型

在CoNLL-2003的NER任务中，也比传统的LSTM+CRF要高。

2.4.2 验证性实验

（1）主要验证MLM的效果。

no NSP：没有使用NSP任务训练，仅仅使用MLM任务
LTR & NO NSP：把MLM任务换成left to right（LTR）任务，也就是放弃了随机mask，改成按照顺序预测每一个词语
+BiLSTM：在LTR & NO NSP任务上，输出层加了BiLSTM。

从图上的实验效果可以看出，使用MLM的模型会比LTR模型的效果要好很多。这侧面证实了MLM可以让模型保持双向的上下文内容的学习。

（2）参数实验

BERT的层数L越多，隐藏层大小H越多，效果越好

（3）MNLI数据集上的收敛速度

MLM的收敛速度确实比LTR模式稍慢。然而，就绝对准确度而言，MLM几乎立刻就开始超越LTR模式

（4）BERT当feature-based来用（在Conll-2003数据集上）

实验中在BERT输出之后加一层BLSTM进行分类。如果把所有层的输出加起来，得到的效果最好。

3.ALBERT

4. 参考

（1）BERT源码分析PART II：https://blog.csdn.net/Kaiyuan_sjtu/article/details/90288178

（2）BERT论文：《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》
（3）ALBERT论文：《ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS》

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【论文解读】BERT和ALBERT

文章目录

1.前言

2. BERT

2.1 引入

2.2 以前的工作

2.2.1 feature-based 方法

2.2.2 fine-tuning 方法

2.2.3 迁移学习方法

2.3 BERT架构

2.3.1 MLM

2.3.2 NSP

2.4 实验

2.4.1 BERT模型的效果

2.4.2 验证性实验

3.ALBERT

4. 参考

24-5-18 X

stacking in tensorflow2.0：Roberta集成

奇異值分解（SVD）推導（從條件推理+反向證明+與特徵分解的關係）

BLEU算法（例子和公式解釋）

機器學習——過擬合問題（線性迴歸+邏輯斯特迴歸的正則化推導）

啓動Tomcat出現自動關閉問題的解決辦法

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結