spanBert

1. 對 BERT 模型進行了如下改進:
  • 對隨機的鄰接分詞(span)而非隨機的單個詞語(token)添加掩膜
  • 通過使用分詞邊界的表示來預測被添加掩膜的分詞的內容,不再依賴分詞內單個 token 的表示。
  • SpanBERT 能夠對分詞進行更好地表示和預測。該模型和 BERT 在掩膜機制和訓練目標上存在差別。首先,SpanBERT 不再 對
2. 原理

該模型和 BERT 在掩膜機制和訓練目標上存在差別。首先,隨機的單個 token 添加掩膜,而是對隨機對鄰接分詞添加掩膜。其次,本文提出了一個新的訓練目標 span-boundary objective (SBO) 進行模型訓練。通過對分詞添加掩膜,作者能夠使模型依據其所在語境預測整個分詞。另外,SBO 能使模型在邊界詞中存儲其分詞級別的信息,使得模型的調優更佳容易。圖1展示了模型的原理。
在這裏插入圖片描述

3. 細節
  • 分詞掩膜
    對於每一個單詞序列 X = (x1, …, xn),作者通過迭代地採樣文本的分詞選擇單詞,直到達到掩膜要求的大小(例如 X 的 15%),並形成 X 的子集 Y。在每次迭代中,作者首先從幾何分佈 l ~ Geo§ 中採樣得到分詞的長度,該幾何分佈是偏態分佈,偏向於較短的分詞。之後,作者隨機(均勻地)選擇分詞的起點。
  • 分詞邊界目標(SBO)
    作者使用一個兩層的前饋神經網絡作爲表示函數,該網絡使用 GeLu 激活函數,並使用層正則化:
    在這裏插入圖片描述
    作者使用向量表示 yi 來預測 xi ,並和 MLM 一樣使用交叉熵作爲損失函數。對於帶掩膜的分詞中的每一個單詞,SpanBERT 對分詞邊界和帶掩膜的語言模型的損失進行加和。
  • 單序列訓練
    本文僅採樣一個單獨的鄰接片段,該片段長度最多爲512個單詞,其長度與 BERT 使用的兩片段的最大長度總和相同。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章