論文鏈接:https://www.aclweb.org/anthology/P19-1139.pdf
一、Motivation
像BERT這種預訓練的語言模型雖然在很多NLP任務上都取得了不錯的效果,但是BERT只是能讓一句話表達的更通順,並沒有融合外部的知識。而外部的信息實體是可以提高語言表徵能力的。因此這篇論文通過融合知識圖譜(KGs)能讓模型同時利用詞典,語法和知識信息。
二、解決的問題
爲了把外部知識融合到語言表徵模型主要會遇到兩個問題:一個是知識抽取,一個是知識的融合。
- 因爲知識圖譜都是以三元組的形式存儲信息,怎麼抽取其中的信息並且對其進行編碼成爲首先需要考慮的問題;
- 由於語言模型預訓練和對知識的表示是不一樣的,雖然都是使用向量表示但是它們會映射到不同的向量空間,因此在抽取信息之後如何設計一個預訓練目標函數對它們進行融合成爲另外一個問題。
三、模型結構
模型的整體框架是左邊這一部分,主要由兩部分組成T-Encoder和K-Encoder。T-Encoder就是爲了負責抽取基本的文本信息,使用的是Transformer的encoder結構,K-Encoder負責在收到下層文本信息之後融合外部的知識信息。
對於上面第一個問題,知識抽取。使用的是TransE算法,將圖結構編碼成知識實體embedding。
然後對文本表示和知識表示分別進行Multi-Head Attention。下面就是進行融合了。
公式(4)和(5)分別表示有實體信息的token和沒有實體信息的token怎麼進行融合。
但是怎麼知道文本中的token有沒有實體信息或者應該和哪個實體對應呢?文章採用對每個token計算實體分佈的方法,找到對齊的token-實體對:
爲了讓模型能更好融入信息,避免抽取token-實體對遇到問題,文章採用以下策略:
- 以5%的概率從識別出來的token-實體對中,隨機替換裏面的實體,主要爲了應對抽錯token-實體對的情況;
- 以15%的概率識別出來的token-實體對中,隨機MASK掉token-實體對,主要爲了應對沒抽出token-實體對的情況;
- 剩下的token-實體對就保持不變了。
對於下游任務的微調過程,該模型通過設計了不同的標記token以適應不同的任務。這部分沒怎麼看懂。