spanBert

原創

2019-08-06 00:43

1. 对 BERT 模型进行了如下改进：

对随机的邻接分词（span）而非随机的单个词语（token）添加掩膜
通过使用分词边界的表示来预测被添加掩膜的分词的内容，不再依赖分词内单个 token 的表示。
SpanBERT 能够对分词进行更好地表示和预测。该模型和 BERT 在掩膜机制和训练目标上存在差别。首先，SpanBERT 不再对

2. 原理

该模型和 BERT 在掩膜机制和训练目标上存在差别。首先，随机的单个 token 添加掩膜，而是对随机对邻接分词添加掩膜。其次，本文提出了一个新的训练目标 span-boundary objective (SBO) 进行模型训练。通过对分词添加掩膜，作者能够使模型依据其所在语境预测整个分词。另外，SBO 能使模型在边界词中存储其分词级别的信息，使得模型的调优更佳容易。图1展示了模型的原理。

3. 细节

分词掩膜
对于每一个单词序列 X = (x1, …, xn)，作者通过迭代地采样文本的分词选择单词，直到达到掩膜要求的大小（例如 X 的 15%），并形成 X 的子集 Y。在每次迭代中，作者首先从几何分布 l ~ Geo§ 中采样得到分词的长度，该几何分布是偏态分布，偏向于较短的分词。之后，作者随机（均匀地）选择分词的起点。
分词边界目标（SBO）
作者使用一个两层的前馈神经网络作为表示函数，该网络使用 GeLu 激活函数，并使用层正则化：

作者使用向量表示 yi 来预测 xi ，并和 MLM 一样使用交叉熵作为损失函数。对于带掩膜的分词中的每一个单词，SpanBERT 对分词边界和带掩膜的语言模型的损失进行加和。
单序列训练
本文仅采样一个单独的邻接片段，该片段长度最多为512个单词，其长度与 BERT 使用的两片段的最大长度总和相同。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

spanBert

1. 对 BERT 模型进行了如下改进：

2. 原理

3. 细节

「Pygors跨平台GUI」2：安装MinGW-w64、MSYS2还是WSL2

一键自动化博客发布工具,用过的人都说好(掘金篇)

[转帖]

python列出centos7内存使用前50的进程信息

「Pygors跨平台GUI」1：Pygors跨平台GUI应用研究

评估统计算法在银行伪造钞票检测中的价值

Java ThreadPoolShutdown

5月21日相聚上海张江！与文心大模型一起共建大模型产业应用生态圈

通义千问 2.5 “客串” ChatGPT4，你分的清吗？

“她”来了，陪伴赛道巨变！为GPT-4o加上你的一个数字分身

python中的list,tuple,set,dict總結

測試基礎

QA論文筆記3

QA論文解讀2

《Open-Domain Why-Question Answering with Adversarial Learning to Encode Answer Texts》筆記

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結