知識表示與融入技術前沿進展及應用

作者|李楊[1],李晶陽[1],牛廣林[2],唐呈光[1],付彬[1],餘海洋[1],孫健[1]

單位|阿里巴巴-達摩院-小蜜Conversational AI團隊[1],北京航空航天大學計算機學院[2]

 

引言

目前,業界公認的人工智能(AI)三個層次爲計算智能、感知智能、認知智能。一般來講,計算智能即快速計算、記憶和儲存能力;感知智能,即視覺、聽覺、觸覺等感知能力,當下十分熱門的人臉識別、語音識別即是感知智能,本質上是充分利用深度學習模型對大數據分佈的擬合能力;認知智能則更爲複雜,包括分析、思考、理解和推理的能力。

隨着 AI 技術的不斷推進,認知智能的研究也越來越受到重視。而“知識”作爲認知智能的核心元素之一,逐漸成爲繼大數據、算法、算力後,第四個推動人工智能發展的關鍵要素。

對於 AI 的核心分支——自然語言處理(NLP)而言,要做到精細深度的語義理解,單純依靠大規模數據標註的解決方案遇到越來越多的阻礙,相反地,知識在語義理解上的作用不斷凸顯。

舉例來說,對於和“人才工作補貼”相關的問題“我剛從斯坦福畢業回國工作,請問可以申請補貼嗎?”,在目前採用傳統的語義匹配架構的問答系統中,由於沒有關於“斯坦福”的知識,因此往往需要配置若干條相似問數據,重新訓練的模型才能給予上述問題正確解答。

而如果模型擁有先驗知識 “斯坦福”→“大學”→“人才”,那麼其就能很自然的對上述問題給予肯定的答覆。因此,利用人類廣泛的先驗知識爲自然語言處理提供先驗知識與邏輯支撐,進而構建融入知識的自然語言處理模型,成爲越來越熱門的研究範式。

從如何利用大規模先驗知識增強語義理解的課題出發,結合阿里巴巴雲小蜜的業務場景,本文第二部分對知識表示與融入的技術前沿和若干行業應用進行介紹,具體來說主要對知識圖譜表示學習和融入知識的預訓練語言模型及其在若干場景下的應用介紹,在第三部分,本文介紹了阿里巴巴雲小蜜在知識應用上的探索與實踐,主要分爲三部分:

1. 在基於知識圖譜的問答(KBQA)場景下,介紹結合知識圖譜表示學習的 KBQA 動態自適應能力;2. 知識圖譜表示學習在 Few-Shot 情形下的深入探索;3. 融入行業知識的預訓練語言模型的應用實踐。

知識表示與融入技術進展

2.1 知識圖譜表示學習及應用

本節主要介紹知識圖譜表示學習及其應用。知識圖譜表示學習共分爲四類:基於翻譯的 Trans 系列模型、基於張量分解模型、基於神經網絡的模型以及基於圖神經網絡模型。

知識圖譜表示學習的嵌入表示可廣泛應用於下游任務如:圖譜知識成份相關的預測、實體類別識別、實體消歧等任務,以及非圖譜知識成份相關的問答、推薦、關係分類等任務 [1]。本文將以問答和推薦任務爲代表,介紹如下幾篇經典工作。

2.1.1 知識圖譜表示學習

2.1.1.1 基於翻譯的模型

將知識圖譜中的每個三元組看成是從頭實體經過關係到尾實體的翻譯過程,不同的基於翻譯的模型之間的區別就在於打分函數的設計,經典算法爲 TransE 模型 [2]。TransE 模型的原理如下圖所示:

由上圖可以看出,TransE 的思想就是對頭實體向量通過關係的平移操作得到尾實體向量。TransE 模型的打分函數設計爲:

這個打分函數也可以被稱爲距離函數,用於衡量頭實體表示加關係表示與尾實體表示之間的距離,當一個三元組(h, r, t)成立時,這個打分函數應取值爲零。基於該打分函數,TransE 模型在訓練過程中,採用最大間隔方法的 hinge loss。TransE 的 Loss function 爲:

其中,(h, r, t)爲知識圖譜中存在的一個正例三元組,(h', r', t')爲通過隨機替換(h, r, t)中的一個元素爲另一個實體或關係的負採樣方法得到的一個負例三元組。整個 loss function 的優化目標爲使得正例三元組和負例三元組的打分之間的距離儘可能更大。基於翻譯的知識圖譜表示學習模型還包括 TransH, TransR, TransD, TranSparse, TransG, RotatE 等。

2.1.1.2 基於張量分解的模型

一個知識圖譜可以看成是一個大的三階張量,利用張量分解的思想可以將這個大尺寸的三階張量分解爲低維的實體矩陣和低維的關係張量乘積的形式,用以判斷每個三元組成立的可能性,典型代表模型爲 RESCAL [3]。RESCAL 模型的原理如下圖所示:

在三階張量中的每個位置表示第 i 個實體和第 j 個實體之間是否滿足第 k 個關係,利用分解後的低維的實體和關係嵌入表示可以還原出三階張量中的每個位置上的真值。RESCAL 的打分函數爲:

其中,h 和 t 分別爲實體關係的嵌入表示,Mr 表示關係的低維張量表示。基於張量分解的知識圖譜表示學習模型還包括 DisMult, HolE, ComplEx 等。

2.1.1.3 基於神經網絡的模型

對於每個關係,可以用一組神經網絡的參數來表示,輸入爲頭實體和尾實體的嵌入表示,輸出爲當前三元組成立的可能性,經典模型爲 NTN [4]。NTN 模型的結構圖爲:

可以看出,NTN 的整個網絡結構包括針對頭實體和尾實體的線性映射和雙線性映射,激活函數和關係 r 的顯式參數表示。NTN 的打分函數爲:

基於神經網絡的知識圖譜表示學習模型還包括 ConvE, ConvKB 等。

2.1.1.4 基於圖神經網絡的模型

整體模型爲一個 encoder-decoder 架構,encoder 部分通過圖卷積神經網絡(GCN)將實體的鄰域信息進行聚合,來更新實體的表示,decoder 部分用三元組打分函數來對更新後的實體表示和關係表示進行打分並進一步訓練參數,經典算法爲 RGCN 模型 [5]。RGCN 模型是最早將圖卷積神經網絡(GCN)引入知識圖譜表示學習的研究,模型結構爲:

由於知識圖譜是一個多關係圖數據,因此,RGCN 在使用 GCN 的過程中針對一個實體鄰域中的不同關係分別進行聚合操作,encoder 部分中每一層的 GCN 的設計爲:

其中,hj 爲第 i 個實體的第 j 個領域實體的嵌入表示,r 表示鄰域中的每一個不同的關係。在 decoder 部分,採用基於張量分解的模型計算打分:

基於圖神經網絡的知識圖譜表示學習模型還包括 KBAT 等。

知識圖譜表示學習相關綜述論文比較多,此處不再贅述,下圖對不同類別的典型模型進行了總結。

2.1.2 知識圖譜表示學習的應用

本節我們將以問答和推薦任務爲代表,介紹如下 3 篇知識圖譜表示學習應用的經典工作,其中問答任務:KEQA [6] 和 EmbedKGQA [7],推薦任務:KGAT [8]。

2.1.2.1 KEQA

百度針對只包含一個頭實體和一個謂語的簡單問句提出基於知識圖譜表示學習的 KEQA 框架 [6]。框架主要包括以下三個步驟:

(1)先訓練一個謂語學習模型,給定一個問句作爲輸入,模型返回一個分佈在知識圖譜嵌入空間的向量作爲預測的謂語表示。類似的,KEQA 還訓練了一個可以識別頭實體的模型來預測頭實體的向量表示。

(2)由於知識圖譜中的實體數量通常很大,KEQA 採用召回模塊來減少候選頭實體數量。

(3)通過知識圖譜表示學習算法的打分函數可以計算出預測的尾實體表示。

本文解決的是簡單問句 KBQA,它可以直接通過圖譜中單個三元組進行回答。在問答階段,將 query 通過以下模型獲得頭實體、謂詞的向量表示,與知識圖譜中三元組的嵌入表示進行匹配,篩選出分值最大的候選三元組,將尾實體作爲答案輸出。

2.1.2.2 EmbedKGQA

KEQA 工作只是針對簡單問句的 KBQA 任務,不能解決多跳的 KBQA 任務。發表在 ACL2020 上的 EmbedKGQA 方法 [7],利用知識圖譜表示學習進一步解決了多跳的 KBQA 任務。文章首先使用知識圖譜表示學習模型 ComplEx 預訓練知識圖譜中實體和關係的嵌入表示。

然後,使用預訓練語言模型學習問句的向量表示,同時從知識圖譜中取得候選答案實體,最後利用前面預訓練得到 topic entity 的嵌入表示,答案實體的嵌入表示,以及 query 的向量表示,根據知識表示學習模型 ComplEx 的三元組打分函數對所有候選答案實體進行排序,並取排名最高的候選答案實體爲問句的答案。EmbedKGQA 在實現多跳 KBQA 任務的同時,還解決了由於圖譜不完備給 KBQA 帶來的挑戰。

2.1.2.3 KGAT

接下來介紹一篇經典的結合知識圖譜表示的推薦模型 KGAT [8]。KGAT 將 user-item 和知識圖譜融合在一起形成一種新的網絡結構,並從該網絡結構中抽取多跳路徑表達網絡中的節點之間的關係。整個 KGAT 模型由三部分組成:

(1)知識表示層:利用知識圖譜表示學習基於 TransR 模型 [9] 將網絡中的節點表示成知識嵌入。

(2)知識傳播層:利用基於知識表示的圖注意力機制學習每個鄰域中節點的傳播權重,並更新中心節點的向量表示。

(3)預測層:通過求 user-item 兩向量表示的內積,可以計算出 user-item 之間的得分,最終選擇 Top-N 結果輸出。

2.2 預訓練語言模型知識融入及應用

本節首先介紹預訓練語言模型中融入知識的三種主流範式:利用知識設計 mask 機制、優化自然語言和知識的交互、設計更多知識相關的 Pre-training task,之後對融入知識的預訓練語言模型的垂直行業應用案例進行介紹。

2.2.1 預訓練語言模型知識融入

2.2.1.1 利用知識設計mask機制

本類方法是指將知識圖譜中主要元素(如實體)引入 mask 機制,主要介紹百度的兩篇相關工作。

百度提出的 ERNIE1.0 [10] 將 mask 的對象從詞拓展到短語和知識圖譜中的實體,提出了一種多階段的融合知識的 mask 策略,將短語和實體級的知識融合到語言表達中。這個新的訓練任務可以利用文本信息和知識圖譜來實現對實體 token 的預測,從而成爲一個富有知識的語言表示模型。

在數據上:利用百科類、資訊類、論壇對話類等語料構造具有上下文關係的句子對作爲訓練數據。在訓練任務上:基於對話數據設計了 Dialogue Language Model(DLM)任務,該任務通過學習對話中的隱式關係,增強了模型的語義表示能力。

進一步,百度在 ERNIE 2.0 [11] 繼續採用包含實體、詞、短語級別多維度的 mask 機制外,還增加了非圖譜知識相關的預訓練任務:大小寫預測、句子間順序和句子間邏輯關係等。爲了更好融合不同預訓練任務,模型在各種預訓練任務之間採用了 Sequential multi-task learning 的訓練框架,該框架可在引入新的學習任務時,不遺忘之前學到過的信息。

2.2.1.2 優化自然語言和知識交互

本類方法中自然語言和知識的鏈接和交互方式比較多樣:如將文本 token 表示和對應實體的知識嵌入表示通過 attention 等方式鏈接在一起 [12,13,14];通過將知識和文本融合成一個樹或者圖的整體形式,並設計針對樹或者圖進行編碼 [15,16]。如下介紹幾篇經典工作。

清華提出的 ERNIE 模型 [12] 首先識別文本中的實體,然後通過實體鏈接將其鏈接到知識圖譜中相應的實體。通過知識圖譜嵌入算法 TransE 學習知識圖譜中實體嵌入表示,然後將實體嵌入表示作爲 ERNIE 的輸入,以此將知識模塊中的實體的表示,引入到預訓練語言模型下層的語義表示中。爲了更好地融合文本信息和知識信息,文章也設計使用了 2.1.1 中介紹的實體級別的 mask 機制。

原生 BERT 中的 Transformer 是用來學習上下文之間的詞法句法表示,由於本文模型結合了知識表示信息,該方法在 Transformer(T-Encoder)之後增加了一個聚合模塊(K-Encoder)來將文本 token 表示和實體表示映射到同一個向量空間。如圖,虛線框中的 w 和 e 分別表示經過實體鏈接處理後鏈接到一起的文本 token 和實體。

預訓語言練模型大多是通過設計如 MLM 和 NSP 等預訓練任務利用大量無監督語料進行預訓練,學習到文本中語義知識。但上述方法存在明顯的缺點,即在每次需要添加新的知識類型時,需要重新預訓練整個模型,可能會導致之前知識的遺忘。K-Adapter [13] 可以把預訓練模型參數固定,然後依據不同類型的知識設計不同的學習器 Adapter 分別獨立學習,從而解決“知識遺忘”的問題。

通過分析發現,K-Adapter 有幾個特點:1. 它是一個知識可插拔、非侵入式的預訓練語言模型;2. 它可以關注不同類型的知識,包括知識圖譜知識、表格知識和句法知識等;3. 它還能持續學習。下一步可以沿着這個方向深入的探索。

KnowBERT [14] 首先識別輸入文本中的實體跨度(Entity spans),並使用實體鏈接器(Entity Linker)從知識圖譜中獲取對應的候選實體,並進一步獲取實體的嵌入表示(不同數據源的實體嵌入表示計算方式不同,下文進一步介紹),以形成知識增強的實體跨度表示。

然後,設計 word-to-entity 注意力機制對文本中的每個實體跨度對應的所有候選實體的嵌入表示進行注意力加權,並將加權後的實體表示通過拼接的方式融合到實體跨度的表示當中,具體如下圖所視。

不同數據源的實體嵌入表示計算方式不同,對 CrossWikis 和 YAGO 知識庫,取得實體 embedding 方式是使用 doc2vec 方法直接從 Wikipedia 的文本描述中學習 Wikipedia 頁面標題的向量表示。對於 WordNet 中的同義詞和詞根,採用知識圖譜 Embeding 模型 TuckER,學習到同義詞和詞根的向量表示。

 K-BERT [15] 提出了一種基於知識圖譜的語言表示模型,模型首先通過實體識別和實體鏈接獲取知識圖譜中對應的實體,然後獲取該實體一跳內相關三元組,並將三元組作爲領域知識注入到句子中,形成一個富有知識的句子樹(Sentence tree)。

然而,傳統的 BERT,只能處理序列結構的句子輸入,而圖結構的句子樹是無法直接輸入到 BERT 中的。如果強行把句子樹平鋪成序列輸入模型,必然造成知識圖譜中結構信息的丟失。此外,注入過多的三元組知識同時會引入一些噪聲,造成句子偏離正確的含義的問題,具體見下圖。

爲解決如上兩個問題,K-BERT提出了軟位置(Soft-position)和可見矩陣(Visible Matrix)兩個策略。除了軟位置和可見矩陣,K-BERT 中的其餘結構均與 Google BERT保持一致,保證了 K-BERT 能夠兼容 BERT 類的模型參數來進行 fine-tune,包括直接加載 Google BERT、Baidu ERNIE、Facebook RoBERTa 等公開的已預訓練好的預訓練模型。

當前融入知識的預訓練語言模型,大多使用知識圖譜嵌入算法如 TransE 預先訓練好實體的嵌入表示,然後將其融入到模型中去,之後實體的嵌入表示不再考慮其所在的上下文信息而隨模型一起更新。

CoLAKE [16] 在加入實體嵌入表示的同時也加入它的上下文信息,允許模型在不同語境下關注實體的不同鄰居,同時學習文本和知識的上下文表示。爲此,CoLAKE 將文本和知識的上下文組成了一張圖作爲訓練樣本,稱爲 word-knowledge graph,然後在圖上做 MLM 同時學習文本和知識的表示。

具體地,CoLAKE 首先將輸入文本中的所以單詞節點形成全連接 word graph,接着把文本中表示實體的單詞節點替換爲對應的實體節點(這類實體節點被稱爲anchor node),然後獲取該實體在知識圖譜中子圖(knowledge subgraph)並將子圖與 word graph 進行拼接組成 word-knowledge graph,具體構建過程如下圖。

最後,將 word-knowledge graph 輸入到基於 Transformer 的 MLM 進行預訓練學習,其中 Transformer 的 embedding 層和 encoder 層進行了簡單調整來適配 word-knowledge graph。

2.2.1.3 設計更多知識相關的Pre-training task

本類方法是指設計一些與知識相關的 Pre-training task,如知識圖譜表示學習任務或者針對知識設計的特定任務如實體替換等,如下介紹幾篇經典工作。

使用訓練好的知識圖譜嵌入表示作爲預訓練語言模型的輸入存在如下問題:1. 知識圖譜的表示空間難以和語言表示空間對齊,需要特殊的設計;2. 需要使用實體鏈接組件,其會帶來額外的開銷以及錯誤累積。KEPLER 模型 [17] 將知識圖譜表示學習也作爲一個 Pre-training task,將其和傳統的文本表示學習聯合成多任務學習。模型設計思路簡單,且模型在 Entity Typing 和 Relation Classification 兩個任務上取得較好效果。

Facebook 提出的 WSKLM [18] 同樣是將知識引入預訓練模型,但與之前的方法不同的是,論文設計瞭如下新的 Pre-training task:通過用相同類型的其他實體替換原始文本中的實體,然後訓練模型區分正確的實體和隨機選擇的其他實體。相比先前的以前利用外部知識庫獲取實體知識的方法,該方法能夠直接從非結構化文本中獲取真實世界的知識。此方法設計的 Pre-training task 簡單有效,數據容易獲取,在下游任務效果提升明顯。

2.2.2 預訓練語言模型知識融入的應用

在醫療領域的 AI 研究中,藥物推薦是重要的醫療應用。大多數現有 AI 模型僅利用少數多次訪問的患者的縱向電子病例,在純文本層面進行預測分析,而忽視了文本中所涉及的醫療背景知識,其中包含各類藥物之間的 Hierarchical 關係與各類疾病和病症之間的關係等。

在此類知識融入的研究上,IBM 提出的 G-BERT [19] 通過將 ICD-9(國際疾病圖譜)、ATC(國際藥品圖譜)融入預訓練語言模型中,在大量單次訪問的患者電子病例上設計醫療相關的任務進行語言模型的訓練,再在多次訪問的患者的電子病例上進行 finetune,最終在英文醫療數據集 MIMIC-III 的藥物推薦上取得了當前最好的效果。

華爲提出的 BERT-MK [20] 模型通過將 UMLS(統一醫學語言圖譜)融入預訓練語言模型中,在醫學領域多個數據集上實體類別分類任務和關係分類任務均取得當前最好效果。其中在融入知識的過程中,論文設計 GCKE 模塊學習子圖中實體及其鄰域信息。特別的,論文將子圖中實體和邊都看成節點,形成一個有向圖,並將其作爲 GCKE 的輸入。

 

2.3 前沿工作總結

通過對前沿工作的分析和總結,我們發現基於知識圖譜表示學習應用知識的方法成本最低,但對下游任務效果提升有限,在融入知識的預訓練語言模型方法中,設計和下游相關的 Pre-training task,效果提升較明顯,值得進一步探索。當前大部分融入知識的預訓練語言模型只是在實體類型識別、小樣本關係分類任務上進行比較。

實驗結果表明,圖譜成分識別相關任務和低資源場景下的任務,融入知識方法能有效提升效果。但大部分工作都沒有在 GLUE 數據集上比較,原因是 GLUE 屬於通用數據集,而用於訓練普通語言模型的海量無標數據已經包含充足信息,融入通用知識提供的信息增益很少。

雲小蜜知識應用的探索與實踐

3.1 知識圖譜表示學習的應用:動態自適應能力

本節通過介紹雲小蜜 KBQA 平臺中的動態自適應能力,具體闡述知識圖譜表示學習如何在真實的工業界產品中落地。

3.1.1 動態自適應能力必要性

在同一場景下,隨着 KBQA 業務不斷運營,會不斷出現新的屬性,即unseen property,這給模型識別帶來很大的挑戰。以稅務場景爲例,運營第 1 個月新增 15 個屬性,平均每個屬性 7.6 條樣本,屬性識別準確率爲 70%。

訓練傳統的 KBQA 有監督模型一般需要標註大量的訓練語料,這種方法在中長尾部分不適用,原因有 3 點:1. 長尾屬性語料本身就很稀疏,達不到有監督模型的樣本量要求;2. 即使攢夠了訓練語料,重新訓練模型鏈路很長,耗時耗力;3. 重訓模型後,整體效果不一定正向,還需要反覆調試,非常繁瑣。

基於以上分析,我們迫切需要一種動態自適應能力以解決新增屬性的問題。爲此,我們從產品層面和算法層面對問題進行拆解。在產品層面,我們允許用戶爲圖譜中的屬性配置相似問句,通過引導用戶配置相似問句降低屬性識別的難度。算法模塊具體工作見下一節。

3.1.2 融入知識的動態自適應算法

對於動態新增的 unseen property,用戶在產品界面爲其配置幾條相似問後,系統能獲取少量標註語料,這時我們可以將這個任務抽象爲小樣本屬性識別任務。爲了更好的利用圖譜中的信息,我們引入知識圖譜補全任務來提升 unseen property 識別效果。

模型採用多任務學習的方法,將 unseen property 識別任務和知識補全任務迭代訓練。考慮到實際業務場景中知識圖譜主要是由<實體,屬性,屬性值>組成,並且屬性值一般爲長文本而非實體。借鑑 [7] 工作,我們將傳統的知識補全任務優化目標從 Head_Entity + Relation = Tail_Entity 改爲 Head_Entity + Property = Query。

實驗結果表明,通過知識補全任務融入知識的動態自適應算法相對於基於 Bert 的屬性識別算法在稅務和保險兩個數據集上均有比較明顯的提升。通過實驗分析發現,模型能夠有效利用知識補全任務的監督信號,聚合出同一個 property 下的 query 集合中語義相近但表示形式不一樣的多種表述 span,豐富了 property 的語義表徵,提升了模型對新屬性的泛化能力。

       

3.1.3 小結

知識圖譜是動態的,新增屬性在業務運營過程中是常態,爲了降低模型訓練成本同時保證準確率,我們提出了一套圖譜動態自適應的算法方案,核心思路通過引入知識補全任務輔助提升 unseen property 識別效果。當前動態自適應模型不僅適用於單屬性的簡單問句,對包含約束、多跳的複雜問句也有一定的處理能力。

動態自適應模型的核心任務是知識圖譜表示學習,最初我們採用 TransE 模型,而動態自適應面臨的是小樣本場景,因此我們對基於知識圖譜表示學習任務進行了進一步探索,見 3.2。

3.2 知識圖譜表示學習的進一步探索

考慮到實際的知識圖譜存在長尾分佈的關係或由於知識圖譜的動態更新導致知識圖譜包含很多小樣本(few-shot)的關係,我們研究了小樣本知識圖譜表示學習。目前,該任務主要面臨以下兩個挑戰:

  • 知識圖譜鄰域稀疏性:對於一些知識圖譜,例如 Wikidata,每個實體的鄰域中只有非常少量的關聯實體和關係,在稀疏鄰域的情況下采用鄰域信息來學習小樣本關係的表示很可能會引入噪聲,影響對小樣本關係的表示。

  • 知識圖譜中的很多關係都具有一對多、多對一和多對多的複雜關係特性,而現有的小樣本知識圖譜表示學習的研究都難以直接解決這一複雜關係的建模和推理的問題。

針對上述挑戰,我們設計了一種新的 Global-Local 兩階段小樣本關係學習模型來實現小樣本知識圖譜表示學習,我們的方法主要包含兩個創新點:

  • 設計了一種新的門控加註意力的鄰居聚合器,用小樣本關係的鄰域信息來學習當前的關係表示。當鄰域信息非常稀疏時,門控機制可以濾除噪聲鄰域信息,用實體 Embedding 來表示當前小樣本關係,保證在不同情況下都能學習到良好的關係表示。

  • 在 TransH 的基礎上結合 MAML 的元學習方法,在小樣本的情況下學習每個關係超平面的參數,並用於建模和推理複雜關係。

模型的整體框架如下:

通過實驗,我們的模型在 NELL-One 和 Wiki-One 兩個數據集上都取得 SOTA 結果,相比於 Strong Baseline MetaR,在 NELL-One 5-shot FKGC 任務上 Hits@10 提升 8.0%。

 

3.3 融入行業知識的預訓練語言模型 

在雲小蜜實際業務中,新場景下如何快速上線問答模型非常重要,爲此,我們構建和訓練了融入行業知識的預訓練語言模型,爲問答模型提供了強大的算法底座,從而降低冷啓動成本。傳統語言模型基本都是基於通用語料進行訓練,它們在專業領域,例如:法律、醫療、保險、教育等行業,由於缺乏領域知識,表現並不理想。我們對此進行了改進,具體方法如下:

  • 實體鏈接:將用戶輸入問句中的實體 mention 鏈接到我們沉澱的行業知識圖譜中的實體;

  • 知識和文本融合:將文本的向量表示與其實體的向量表示通過特定網絡層和函數進行融合;

  • Pre-training task:借鑑 KEPLER [17] 的思想,引入知識表示學習作爲新的 Pre-training task 進一步提升模型效果。

通過保險和政務場景的實驗,融入行業知識的模型在低資源情形下,屬性識別準確率相對通用 BERT 模型 Finetune 提升 6%~8%。

總結和展望

本文對知識圖譜表示學習和融入知識的預訓語言練模型最新進展進行了介紹和分析,同時介紹了我們在知識應用上的探索與實踐。我們有以下 3 點發現:

  • 知識圖譜表示學習由於知識嵌入表示和文本表示語義空間不同,在具體任務中效果提升不夠明顯。

  • 融入知識的預訓練語言模型在圖譜成分識別和低資源場景下的任務上,效果提升明顯。

  • 當前針對下游特定任務設計 Pre-training task 還處於探索期,是一個值得持續深耕的方向。

隨着知識圖譜表示學習和融入知識的預訓練語言模型不斷髮展和完善,應用知識來進一步提升效果的任務也越來越多,結合我們的調研工作和實際業務實踐,我們認爲知識表示與融入技術未來有以下 3 個發展趨勢:

  • 知識來源:充分利用常識知識和概念知識

    當前融入知識的預訓練語言模型研究工作主要集中使用世界知識如 Freebase、DbPedia,如何進一步融入常識和概念知識將是一個重要研究方向。

  • 知識選擇:知識降噪需要更加有效的方法

    依據輸入文本從規模龐大的知識圖譜中選取相關知識是知識融入必不可少的重要模塊。而知識獲取的過程,首先是基於實體鏈接從圖譜中選出最相關的實體,然後再從相關實體中選出相關三元組,如上兩步都會引入不相關的知識,因此需要有效的辦法來降噪,保證知識的質量。

  • Pre-training task:設計融入知識的下游任務相關 Pre-training task

    當前融入知識預訓練語言模型的Pre-training task更多是通用任務,如實體級別的 MLM 和知識圖譜表示學習任務,但針對下游任務設計 Pre-training task的工作研究較少,這方面主要工作是 Facebook 的 WSKLM [18],它已經證明方法的有效性。因此爲更多的下游任務如問答、推薦等設計相關的 Pre-training task 將是一個非常重要的方向。

最後,希望本篇工作可以對工業界和學術界讀者的工作帶來一定的啓發和幫助,同時也感謝各位讀者的耐心研讀,本文若有紕漏或不妥之處,請不吝賜教。

參考文獻

[1] Wang, Q., Mao, Z., Wang, et al. (2017). Knowledge graph embedding: A survey of approaches and applications. IEEE Transactions on Knowledge and Data Engineering, 29(12), 2724-2743.

[2] Antoine B, Nicolas U, Alberto G D, et al. (2013). Translating Embeddings for Modeling Multi-relational Data. NIPS, 2787-2795.

[3] Maximilian N, Volker T, Kriegel H P, et al. (2011). A Three-Way Model for Collective Learning on Multi-Relational Data. ICML, 809-816.

[4] Schero R, Chen D Q, Manning C D, et al.(2013). Reasoning With Neural Tensor Networks for Knowledge Base Completion. NIPS, 926-934.

[5] Schlichtkrull M S, Thomas N. K, Bloem P, et al.(2018). Modeling Relational Data with Graph Convolutional Networks. ESWC, 593-607.

[6] Huang, X., Zhang, J., Li, D., & Li, P. (2019). Knowledge graph embedding based question answering. In Proceedings of the Twelfth ACM International Conference on Web Search and Data Mining (pp. 105-113).

[7] Saxena, A., Tripathi, A., & Talukdar, P. (2020). Improving multi-hop question answering over knowledge graphs using knowledge base embeddings. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (pp. 4498-4507).

[8] Xiang Wang, Xiangnan He, Yixin Cao, Meng Liu and Tat-Seng Chua (2019). KGAT: Knowledge Graph Attention Network for Recommendation. KDD, 950–958.

[9] Yankai Lin, Zhiyuan Liu, Maosong Sun, Yang Liu, Xuan Zhu (2015). Learning Entity and Relation Embeddings for Knowledge Graph Completion. AAAI, 2181-2187.

[10]Sun Y, Wang S, Li Y, et al. Ernie: Enhanced representation through knowledge integration[J]. arXiv preprint arXiv:1904.09223, 2019.

[11] Sun, Y., Wang, S., Li, Y., et al. (2020). ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding. Proceedings of the AAAI Conference on Artificial Intelligence, 34(05), 8968-8975.

[12] Zhang Z, Han X, Liu Z, et al. ERNIE: Enhanced language representation with informative entities[J]. arXiv preprint arXiv:1905.07129, 2019.

[13] Wang R, Tang D, Duan N, et al. K-adapter: Infusing knowledge into pre-trained models with adapters[J]. arXiv preprint arXiv:2002.01808, 2020.

[14] Peters M E, Neumann M, Logan IV R L, et al. Knowledge enhanced contextual word representations[J]. arXiv preprint arXiv:1909.04164, 2019.

[15] Liu, W., Zhou, P., Zhao, Z., et al. (2020). K-BERT: Enabling Language Representation with Knowledge Graph. Proceedings of the AAAI Conference on Artificial Intelligence, 34(03), 2901-2908.

[16] Sun T, Shao Y, Qiu X, et al. CoLAKE: Contextualized Language and Knowledge Embedding[J]. arXiv preprint arXiv:2010.00309, 2020.

[17] Wang X, Gao T, Zhu Z, et al. KEPLER: A unified model for knowledge embedding and pre-trained language representation[J]. arXiv preprint arXiv:1911.06136, 2019.

[18] Xiong W, Du J, Wang W Y, et al. Pretrained Encyclopedia: Weakly Supervised Knowledge-Pretrained Language Model[J]. arXiv preprint arXiv:1912.09637, 2019.

[19] Hong Sh D.,Zhou Y X., Shang J Y, et al. (2019). Pre-training of Graph Augmented Transformers for Medication Recommendation. In The 28th International Joint Conference on Artificial Intelligence

[20] H Bin, Zhou , Xiao J H, et al. (2019). BERT-MK: Integrating Graph Contextualized Knowledge into Pre-trained Language Models.Findings of the Association for Computational Linguistics: EMNLP, 2281–2290

 

 

更多閱讀


#投 稿 通 道#

 讓你的論文被更多人看到 

如何才能讓更多的優質內容以更短路徑到達讀者羣體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。

總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成爲一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 

PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得技術乾貨。我們的目的只有一個,讓知識真正流動起來。

???? 來稿標準:

• 稿件確係個人原創作品,來稿需註明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向) 

• 如果文章並非首發,請在投稿時提醒並附上所有已發佈鏈接 

• PaperWeekly 默認每篇文章都是首發,均會添加“原創”標誌

???? 投稿郵箱:

• 投稿郵箱:[email protected] 

• 所有文章配圖,請單獨在附件中發送 

• 請留下即時聯繫方式(微信或手機),以便我們在編輯發佈時和作者溝通

????

現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關於PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公衆號後臺點擊「交流羣」,小助手將把你帶入 PaperWeekly 的交流羣裏。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章