自然语言处理—BERT

原創

2021-01-17 00:45

BERT(Bidirectional Encoder Representations from Transformers)

在 ACL 上，Devlin, Chang, Lee 和 Toutanova 发表于 2019 的文章— BERT:Pre-training of deep bidirectional transformers for language understanding。

那么什么是 BERT 呢? 我们先从字面上解释一下什么是 BERT，我们将词分开来一个一个地看来解读什么是 BERT。

Bidirectional : 是双向神经网络，这个在学习 RNN 时候我们就了解到如何使用双向 RNN 让每一个词视野更加广阔，不但可以看到其前面词还能看到其后面的词
Encoder : 说明 BERT 是编码器
Representations : BERT 是完成词的表征的任务的模型，之前我们已经学过了了 word2vec
Transformer: 其实 BERT 就是 transform 解码器部分，表示 BERT 结构没有采用 LSTM 这样 RNN 结构，而是采用了 Transformer 这样结构来实现双向循环神经网，Transformer 对象 LSTM 的优势是并行计算

那么 BERT 用途是啥呢

我们先说 BERT 的优点，就是在训练 BERT 时候我们不需要人工数据集，随便那些文本资料就可以用于训练 BERT，这些文本可以小说、技术书刊、杂志或者是网页等等来做预训练。

但是 BERT 也不是完美无缺，BERT 需要大量算力才能进行 BERT 的训练

简单介绍一下 BERT 中的两个任务
以及两个任务的作用
如何将两个任务设计到一个网络结构中

双向变换器编码表征(Devlin at al, 2018)

上下文
(巨大)的 transformer 编码器

| 版本 | block |hidden units |heads | parameters |GPU | time |
|---|---|---|---|---|---|---|---|
| Small | 12 | 768 | 12 | 110M | 16TPU | 14 days|
| Large | 24 | 1024 | 16 | 340M |

如果要用亚马逊的服务可能要花费 1 万美元才能训练出小规模的 BERT
I went to the bank to deposit some money
I went to the back to sit down

预训练

提高模型的泛化能力的方法
随机遮挡一个单词，让编码器(encoder)根据上下文来预测被遮挡的单词
将两句话放在一起，让编码器(encoder)来判断这两句话是不是原文中相邻的两句话

任务1—预测被遮挡的单词

输入是文本序列，经过预处理，有关如何对文本进行预处理之前已经给大家介绍过，将文本切分为单词
经过 Embedding Layer 将每一个单词映射为词向量
经过 Transformer 的编码器(Encoder) 后得到

从一句话中对所有 token 进行随机选取，每一个 token 选取可能性都是 15%
- 80% 用 <mask> 替换掉这个词
- 10% 用一个 <random token> 来替换掉这个词
- 10% 用 cat 这个词
transformer 中有注意力机制，所以 $u_M$ 和输入 $x$ 并不是一对一映射，而是多对一映射。