spanBert

原創

2019-08-06 00:43

1. 對 BERT 模型進行了如下改進：

對隨機的鄰接分詞（span）而非隨機的單個詞語（token）添加掩膜
通過使用分詞邊界的表示來預測被添加掩膜的分詞的內容，不再依賴分詞內單個 token 的表示。
SpanBERT 能夠對分詞進行更好地表示和預測。該模型和 BERT 在掩膜機制和訓練目標上存在差別。首先，SpanBERT 不再對

2. 原理

該模型和 BERT 在掩膜機制和訓練目標上存在差別。首先，隨機的單個 token 添加掩膜，而是對隨機對鄰接分詞添加掩膜。其次，本文提出了一個新的訓練目標 span-boundary objective (SBO) 進行模型訓練。通過對分詞添加掩膜，作者能夠使模型依據其所在語境預測整個分詞。另外，SBO 能使模型在邊界詞中存儲其分詞級別的信息，使得模型的調優更佳容易。圖1展示了模型的原理。

3. 細節

分詞掩膜
對於每一個單詞序列 X = (x1, …, xn)，作者通過迭代地採樣文本的分詞選擇單詞，直到達到掩膜要求的大小（例如 X 的 15%），並形成 X 的子集 Y。在每次迭代中，作者首先從幾何分佈 l ~ Geo§ 中採樣得到分詞的長度，該幾何分佈是偏態分佈，偏向於較短的分詞。之後，作者隨機（均勻地）選擇分詞的起點。
分詞邊界目標（SBO）
作者使用一個兩層的前饋神經網絡作爲表示函數，該網絡使用 GeLu 激活函數，並使用層正則化：

作者使用向量表示 yi 來預測 xi ，並和 MLM 一樣使用交叉熵作爲損失函數。對於帶掩膜的分詞中的每一個單詞，SpanBERT 對分詞邊界和帶掩膜的語言模型的損失進行加和。
單序列訓練
本文僅採樣一個單獨的鄰接片段，該片段長度最多爲512個單詞，其長度與 BERT 使用的兩片段的最大長度總和相同。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

spanBert

1. 對 BERT 模型進行了如下改進：

2. 原理

3. 細節

關於遊戲付費的一點想法

我通過CKA和CKS啦！

python中的list,tuple,set,dict總結

測試基礎

QA論文筆記3

QA論文解讀2

《Open-Domain Why-Question Answering with Adversarial Learning to Encode Answer Texts》筆記

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結