論文淺嘗 - ACL2020 | 用於鏈接預測的開放知識圖譜嵌入

本文轉載自公衆號：PaperWeekly。

作者：舒意恆，南京大學碩士，研究方向：知識圖譜。

當前大量的知識圖譜都是通過文本直接構建的。由於當前的知識圖譜構建方法的侷限性，其中難免包含對同一實體或關係的多種表述。

知識圖譜嵌入模型的發展，長期關注於如何設計更好的評分函數、如何反映知識圖譜的內在結構，但非常少的研究關注於知識圖譜的實體和關係本身具有多種描述形式。本文提出的嵌入方法和基準測試，針對當前知識圖譜構建的特點，提供了值得關注的見解。

論文來源：ACL 2020

論文鏈接：https://www.aclweb.org/anthology/2020.acl-main.209/

1 介紹

知識圖譜是三元組的集合，其中，主語或賓語以結點表示，關係以帶標籤的邊表示。當前知識圖譜的構建通常需要豐富的文本鏈接和信息框，但它們並不是在每個領域都可用。因此，作者想要探索通過原始文本而沒有中間步驟構建起來的知識圖譜上，是否能夠做鏈接預測，例如藥物發現等領域。

開放信息提取系統自動地從非結構化數據中提取三元組，例如文本是一種非結構化數據。作者將這樣提取出的數據稱爲開放知識圖譜。作者嘗試探索在沒有規範和監督的情況下，如何在開放知識圖譜上推理出潛在的事實知識。

鏈接預測是知識圖譜上需要推理的一個常見任務。它的目標是預測知識圖譜上缺失的事實。而當前知識圖譜嵌入模型已成功用於預測知識圖譜中的缺失事實。

2 開放知識圖譜

開放知識圖譜可以完全自動地被構建。它們不需要實體和關係的詞典，因此他們能夠捕捉更多信息。例如，不同的實體描述在不同的時間段指的是不同的實體版本。類似地，關係的描述也可能是多變的。

相比於一般的知識圖譜，開放知識圖譜包含豐富的概念知識。開放知識圖譜可能包含更多的噪聲，並且事實知識可能更加不確定。

如圖，一般的知識圖譜（curated KGs）對比開放知識圖譜（open KGs）。

3 開放鏈接預測

在開放鏈接預測中，模型對一個有序的陳述進行預測。但是問題可能有多個等價的正確答案，即多個答案可能指代的是同一個實體，但有不同的表述。作者將其評估準則稱爲指代排序準則（mention-ranking protocol）。

作者的評估準則基於正確答案描述的最高排名。在過濾的設置上，除了被評價的實體外，已知答案實體的多種表述都將從排名中被過濾。該準則使用評價三元組實體的不同表述的知識來獲得合適的排名，消除一個實體多種表述對排序的影響。

因此，該準則需要（1）待評價三元組的頭實體和尾實體的註解，以及（2）這些實體的全面的表述集合。

4 構建開放鏈接預測的基準測試

4.1 數據源

作者將其提出的基準測試，稱爲 OLPBENCH，它基於 OPIEC [1] 構建，後者是一個最近發佈的數據集，它從英文維基百科的文本構建得到。

4.2 評估數據

數據質量 從數據集中，作者構建了滿足以下要求的驗證集和測試集。評估數據中的噪聲應該儘量的被限制，作者選擇了一種簡單有效的準則。在採樣評估數據中的候選項中，不考慮 token 數量小於 3 的非常短的關係。作者給出了三個理由：

短關係通常歸屬於長關係。
長關係更少地被簡單的應用於知識圖譜構建方法的模式所捕捉。
自動提取的實體註解，對於短關係來說略顯嘈雜。

數據構建中的人爲干預 爲了保證數據的質量，作者認爲，對於規模較小的驗證數據，人類經驗的干預是必要的。因此，作者將驗證數據分爲三類。

VALID-ALL：沒有人類的工作
VALID-MENTION：其中有部分人類的工作。
VALID-LINKED：大多數是人類的工作。

如圖是 OLPBENCH 中鏈接數據與非鏈接數據的樣例。

4.3 訓練數據

爲了評估知識圖譜上的鏈接預測模型，評估事實通常通過對知識圖譜的三元組進行採樣生成。最簡單的避免訓練數據泄露到測試數據中的方法是直接刪除評估三元組的訓練數據。

但這種簡單的方法可能並不能完全避免泄露，訓練三元組仍然可能直接被推斷到。例如，評估三元組 (a, siblingOf, b) 可以輕鬆地被訓練三元組 (b, siblingOf, a) 回答到。

在開放知識圖譜中，關係的轉述導致了另外一種泄漏。例如，關係 “is in” 和 “located in” 可能包含許多相同的實體對。

作者使用了三個級別的泄漏移除方法，稱爲 SIMPLE、BASIC 和 THOROUGH，即簡單的、基本的和徹底的泄漏移除。例如，訓練數據中存在三元組 (i, k, j) 的情況：

簡單移除：只有三元組 (i, k, j) 被移除，i 和 j 的其他表述不被移除。
基本移除：三元組 (i, k, j) 和 (j, k, i) 都被移除，i 和 j 的其他表述也都被移除。
徹底移除：在基本移除的基礎上，按以下模式移除評估數據中的三元組：

(i, *, j) 和 (j, * i)，即刪掉兩實體間任何方向的任何形式的關係，例如，三元組 (“J. Smith”, “is player of”, “Liverpool”).
(i, k + j,∗) 和 (∗, k + i, j)，例如，三元組，(“J. Smith”, “is Liverpool’s defender on”, “Saturday”).
(i + k + j, ∗, ∗) 和 (∗, ∗, i + k + j)，例如，三元組 (“Liverpool defender J. Smith”, “kicked”, “the ball”).

這三種移除方式將生成三個不同的訓練集。

5 開放知識圖譜嵌入

知識圖譜嵌入模型已經成功地應用於知識圖譜的鏈接預測，而作者將它擴展到開放知識圖譜的鏈接預測當中。

知識圖譜嵌入模型 知識圖譜嵌入模型將每個實體和關係與一個嵌入關聯起來，嵌入是以鏈接預測爲目標學習到的稠密向量表示。這些模型爲三元組計算分數，它的目標是爲正確的三元組學習到高分數，爲錯誤到三元組學習到低分數。

組合得到的知識圖譜嵌入模型 作者考慮用組合函數從表面形式的標記中創建實體和關係表徵。只要在訓練過程中觀察到標記，一個讀取表述和開放關係標記的模型原則上可以處理任何表述和開放關係。

作者使用一個通用的模型架構，它組合了關係模型和組合函數。關係模型用於對三元組的評分，組合函數用於對一個實體或關係的多個 token 的組合。

使用組合的知識圖譜嵌入模型。三元組的 token 首先被分別的嵌入，然後組合爲一個表述或關係嵌入。最後，一個知識圖譜嵌入模型被用於計算三元組的分數。

6 實驗

作者使用 ComplEx [2] 作爲關係模型，它是一個高效的雙線性模型（bilinear model）。對於組合函數，作者使用一層 LSTM，hidden size 等於 token embedding 大小。作者將其稱爲 ComplEx-LSTM 模型。

對比模型 爲了測試出有多少問題不需要通過整個問題的信息直接回答，作者提出兩個對比模型。給定一個問題 (i, k, ?)，PREDICT-WITH-REL 通過 (r, ?) 進行評分。例如問題，(“Jamie Carragher”, “is defender of”, ?)，我們詢問 (“is defender of”, ?). 而類似地，PREDICT-WITH-ENT 忽略關係而只計算實體對的分數。

如圖是測試集上的結果，同時利用實體和關係的 ComplEx-LSTM 超越了作爲對比的 PRED-WITH-ENT / PRED-WITH-REL。同時，泄露移除的程度越大，鏈接預測的效果越差，一定程度說明現有方法不能很好地處理開放知識圖譜。人類對數據集的干預同時對模型表現的提升有影響。

如圖是驗證集上的結果。效果略高於測試集。

7 結論

作者提出了開放鏈接預測任務，以及一種構建開放鏈接預測基準測試的方法，並構建了一個基準測試 OLPBENCH。作者研究了評估事實的泄露、非關係信息和實體知識對鏈接預測任務的影響，並通過實驗證明其方法預測出的事實基本是新的事實，而不是知識圖譜中原有的。

參考文獻

[1] Kiril Gashteovski, Sebastian Wanner, Sven Hertling, Samuel Broscheit, and Rainer Gemulla. 2019. OPIEC: an open information extraction corpus. CoRR, abs/1904.12324.

[2] The ́o Trouillon, Johannes Welbl, Sebastian Riedel, Eric Gaussier, and Guillaume Bouchard. 2016. Complex embeddings for simple link prediction. In Proceedings of the 33nd International Conference on Machine Learning, ICML 2016, New York City, NY, USA, June 19-24, 2016, pages 2071–2080.

OpenKG

開放知識圖譜（簡稱 OpenKG）旨在促進中文知識圖譜數據的開放與互聯，促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文，進入 OpenKG 博客。

論文淺嘗 - ACL2020 | 用於鏈接預測的開放知識圖譜嵌入

論文淺嘗 - SIAM ICDM 2020 | 基於圖時空網絡的知識引導的診斷預測

論文淺嘗 | Iterative Cross-Lingual Entity Alignment Based on TransC

論文淺嘗 - AAAI2020 | 基於知識圖譜進行對話目標規劃的開放域對話生成技術

論文淺嘗 - ACL2020 | 用於鏈接預測的開放知識圖譜嵌入

陳華鈞等 | OpenKG區塊鏈：構建可信開放的聯邦知識圖譜平臺

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結