ng Li, Ping Li*

摘要

知識圖問答（QA-KG）旨在利用知識圖（KG）中的事實來回答自然語言問題。它可以幫助最終用戶更高效，更輕鬆地訪問KG中的重要知識，而無需瞭解其數據結構。 QA-KG是一個不平凡的問題，因爲捕獲自然語言的語義對一臺機器來說很困難。同時，已經提出了許多知識圖嵌入方法。關鍵思想是將每個謂詞/實體表示爲低維向量，以便可以保留KG中的關係信息。所學習的向量可以使各種應用受益，例如KG完成和推薦系統。在本文中，我們探索使用它們來處理QA-KG問題。但是，由於謂詞在自然語言問題中可能以不同的方式表達，因此這仍然是一項艱鉅的任務。同樣，實體名稱和部分名稱的含糊不清使得可能的答案數量變大。

爲了彌合差距，我們提出了一個有效的基於知識嵌入的問答系統（KEQA）。我們專注於回答最常見的問題類型，即簡單問題，如果正確識別了其單個頭部實體和單個謂詞，則機器可以直接回答每個問題。爲了回答一個簡單的問題，KEQA的目標不是在直接推斷其主體和謂詞，而是在KG嵌入空間中共同恢復問題的主體，謂詞和尾部表示。根據精心設計的聯合距離度量，將三個學習到的向量在KG中最接近的事實作爲答案返回。在廣泛採用的基準上進行的實驗表明，所提出的KEQA優於最新的QA-KG方法。

關鍵詞

問題解答，知識圖嵌入，深度學習

引言

隨着諸如Wikidata，Freebase [19]，DBpedia [22]和YAGO [33]之類的大規模知識圖譜的興起，對知識圖的問答（QA）成爲一個至關重要的話題，並引起了廣泛的關注[6，27， 29]。知識圖（KG）是一個以現實世界中的實體爲節點，它們之間的關係爲邊的有向圖[25，36]。在此圖中，每個有向邊及其頭部實體和尾部實體共同構成一個三元組，即（頭部實體(head entity)，謂詞(predicate)，尾部實體(tail entity)），也稱爲事實(fact)。現實世界中的知識圖通常包含數百萬或數十億個事實。它們龐大的數量和複雜的數據結構使普通用戶難以訪問其中的大量寶貴知識。爲了彌合差距，提出了基於知識圖的問答（QA-KG）[10，21]。它的目標是自動將最終用戶的自然語言問題轉換爲結構化查詢（例如SPARQL），並在結果中返回KG中的實體和/或謂詞。例如，思考問題“哪個奧運會是在澳大利亞舉行的？”，QA-KG旨在確定其相應的兩個事實，即（澳大利亞，olympics_participated_in，1952/2004年夏季奧運會）。

知識圖上的問題解答爲人工智能系統提供了一種將知識圖作爲回答人類問題的關鍵要素的方法，其應用範圍從搜索引擎設計到會話代理構建[20]。但是，QA-KG問題遠未解決，因爲它涉及到多個具有挑戰性的子問題，例如語義分析[45]和實體鏈接[4，30]。

知識圖嵌入[7，38]在不同的實際應用中的有效性[36]促使我們探索其在解決QA-KG問題中的潛在用途。知識圖嵌入[26，41]的目標是學習KG中每個謂詞/實體的低維向量表示，以使原始關係很好地保留在向量中。這些學習的向量表示可以被用來有效地完成各種下游應用。示例包括KG完成[25，34]，推薦系統[49]和關係提取[20，40]。在本文中，我們建議利用知識圖嵌入的優勢來執行QA-KG。 KG嵌入表示可以以多種方式推進QA-KG。它們不僅在低維空間內，而且還可以促進下游應用程序將整個KG納入考慮範圍[49]，因爲即使單個謂詞/實體表示形式也是與整個KG交互作用的結果。另外，相似的謂詞/實體往往具有相似的向量。此屬性可以幫助下游算法處理不在訓練數據中的謂詞或實體。

然而，基於知識圖嵌入進行QA-KG仍然是一項艱鉅的任務[23]。存在三個主要挑戰。首先，謂詞在自然語言問題中經常有各種表達[3，45]。這些表達式可能與謂詞名稱完全不同。例如，謂詞person.nationality可以表示爲“ …的國籍”，“ …來自哪個國家”，“ …來自哪裏”等。其次，即使假設實體名稱可以被準確地識別，實體名稱和部分名稱的歧義性仍然使很難找到正確的實體，因爲候選者的數量通常很大。隨着KG規模的不斷擴大，許多實體將使用相同的名稱。同樣，最終用戶可以在其話語中使用部分名稱。例如，在“奧巴馬幾歲了？”問題中，僅顯示實體名稱巴拉克•奧巴馬的一部分。第三，最終用戶的問題域通常是無限制的，並且任何一個KG都不是完整的[25]。新問題可能涉及與訓練中所用謂詞不同的謂詞。這對QA-KG算法的魯棒性提出了要求。

爲了彌合差距，我們探索瞭如何利用知識圖嵌入來進行問題解答。在本文中，我們重點介紹QA-KG中最常見的問題類型[2，13]，即簡單問題。一個簡單的問題是一種自然語言問題，它僅涉及一個頭實體和一個謂詞。通過分析問題，我們旨在回答三個研究問題。（i）如何運用謂詞嵌入表示法來彌合自然語言表達與KG謂詞之間的鴻溝？（ii）如何利用實體嵌入表示法應對歧義性挑戰？（iii）如何利用KG嵌入表述中保留的全局關係來改善QA-KG框架？在這些問題之後，我們提出了一個簡單的框架，名爲基於知識嵌入的問答系統（KEQA）。總而言之，我們的主要貢獻如下：

正式定義基於知識圖嵌入的問答問題。
提出一種有效的框架KEQA，該框架可以通過在知識圖嵌入空間中*共同恢復（jointly recovering）*其頭實體，謂詞和尾部實體表示來回答自然語言問題。
設計一個聯合距離度量，該度量將把保留在嵌入表示形式的知識圖中的結構和關係考慮在內。
在一個較大的基準上以經驗方式證明KEQA的有效性和魯棒性（即SimpleQuestions）。

問題陳述

符號：我們使用大寫的粗體字母表示矩陣（例如W），使用小寫的粗體字母表示向量（例如p）。矩陣P的第i行表示爲 $p_i$ 。向量的轉置記爲 $p^T$ 。向量的 $l^2$ 範數表示爲 $||p||_2$ 。我們用 ${p_i}$ 表示向量 $p_i$ 的一個序列。運算 $s =[ x; h]$ 表示將列向量x和h連接到一個新向量s中。

定義1（簡單問題）[6] 如果自然語言問題僅涉及知識圖中的單個首部實體和單個謂詞，並以其尾部實體/實體作爲答案，則該問題稱爲簡單問題

我們在表1中總結了本文中的重要符號。我們使用 $（h，ℓ，t）$ 表示一個事實，這意味着從頭部實體 $h$ 到尾部實體 $t$ 存在一個關係 $ℓ$ 。令 $G$ 是一個包含大量事實的知識圖。謂詞和實體的總數分別表示爲 $M$ 和 $N$ 。這些謂詞和實體的名稱已給出。我們將可擴展的KG嵌入算法（如TransE[7]和TransR[25]）應用於 $G$ ，並獲得其謂詞和實體分別以 $P$ 和 $E$ 表示的嵌入表示。因此，第i個謂詞和第j個實體的向量表示分別表示爲 $p_i$ 和 $e_j$ 。KG嵌入算法定義的關係函數爲 $f(\cdot)$ ，即給定一個事實 $(h，ℓ，t)$ ，我們有 $e_t \approx f(e_h，p_ℓ)$ 。讓 $Q$ 表示一組簡單的問題。對於其中的每個問題，將給出相應的頭部實體和謂詞。

表1：重要的符號和它們的定義

符號	定義
$G$	一個知識圖
$(h，ℓ，t )$	一個事實，即（頭部實體，謂詞，尾部實體）
$Q$	一組具有基本事實的簡單問題
$M$	$G$ 中謂詞的總數
$N$	$G$ 中實體的總數
$d$	嵌入表示的維度
$P \in \Reals^{M\times d}$	$G$ 中所有謂詞的嵌入表示
$E \in \Reals^{M\times d}$	$G$ 中所有實體的嵌入表示
$f(\cdot)$	關係函數，給定 $(h，ℓ，t)$ ，有 $e_t \approx f(e_h，p_ℓ)$
$\hat{P}_\ell \in \Reals^{1\times d}$	預測的謂詞表示
$\hat{e}_h \in \Reals^{1\times d}$	預測的頭部實體表示
$HED$	頭部實體預測模型
${HED}_{entity}$	由HED返回的頭部實體名稱tokens
${HED}_{non}$	由HED返回的非實體名稱tokens

術語“簡單問題”在定義1中定義。如果確定了機器的單個頭部實體和單個謂詞，則機器可以直接回答簡單問題。給定上述條件，我們現在正式定義基於知識圖嵌入的問答題。

給定一個與其所有謂詞和實體的名稱以及嵌入表示 $P＆E$ 相關的知識圖 $G$ ，關係函數 $f（·）$ ，以及與相應的頭部實體和謂詞相關的一組簡單問題 $Q$ ，我們旨在設計一種end-to-end框架，它將一個新的簡單問題作爲輸入，並自動返回相應的head實體和謂詞。框架的性能通過正確預測頭部實體和謂詞的準確性來評估。

基於QA-KG的知識嵌入

簡單問題構成了QA-KG問題中的大部分問題[2，13]。如果標識了正確的頭部實體和謂詞，則每個尾部實體都可以回答它們。爲了準確地預測頭實體和謂詞，我們提出了基於知識嵌入的問答機制（KEQA）。其主要思想如圖1所示。KG已被嵌入到兩個低維空間中，並且每個事實 $(h，ℓ，t)$ 都可以表示爲三個潛在向量，即 $e_h，p_ℓ, e_t$ 。因此，給定一個問題，只要我們可以預測其相應事實 $e_h$ 和 $p_ℓ$ ，那麼這個問題就可以正確回答。
圖1：KEQA並沒有直接推斷頭部實體和謂詞，而是着眼於在知識圖嵌入空間中共同恢復問題的頭部實體，謂詞和尾部實體表示形式 $（\hat{e}_h, \hat{p},\hat{e}_t）$ 。

KEQA通過三個步驟實現目標：（i）基於Q中的問題以及它們的謂詞的嵌入，KEQA訓練一個謂詞學習模型，該模型將問題作爲輸入並返回位於KG嵌入空間中的向量 $\hat{p}_ℓ$ 作爲預測的謂詞表示。類似地，可以構造一個頭部實體學習模型來預測問題的頭部實體表示 $\hat{e}_h$ 。（ii）由於KG中的實體數量通常很大，因此KEQA使用Head Entity Detection模型來減少候選的Head實體。主要目標是將問題中的多個標記識別爲預測的頭部實體名稱，然後將搜索空間從整個實體縮減爲多個具有相同或相似名稱的實體。然後 $\hat{e}_h$ 主要用於解決歧義性挑戰。 iii）給定由KG嵌入算法定義的關係函數 $f(\cdot)$ ，KEQA計算預測的尾部實體表示 $\hat{e}_t = f（\hat{e}_h，\hat{p}_ℓ）$ 。根據精心設計的聯合距離度量(joint distance metrics)，將 $G$ 中最接近的預測事實 $（\hat{e}_h，\hat{p}_ℓ，\hat{e}_t）$ 作爲問題的答案返回。

知識圖嵌入

所提出的框架KEQA使用所有謂詞P和實體E的嵌入表示作爲基礎結構。我們利用現有的KG嵌入算法來學習P和E。

知識圖嵌入[8，36]旨在將KG中的每個謂詞/實體表示爲低維向量，以便在這些學習的向量中保留KG中的原始結構和關係。現有的大多數KG嵌入方法[7，24，25，38–41]的核心思想可以總結如下。對於G中的每個事實 $(h，ℓ，t)$ ，我們將其嵌入表示表示爲 $e_h，p_ℓ$ 和 $e_t$ 。嵌入算法隨機地初始化 $e_h，p_ℓ$ 和 $e_t$ 的值[7，14]或基於訓練的單詞嵌入模型[26，32]。然後，定義用於測量嵌入空間中的事實 $(h，ℓ，t)$ 的關係的函數 $f(\cdot)$ ，即， $e_t \approx f(e_h，p_ℓ)$ 。例如，TransE[7]將關係定義爲 $e_t \approx e_h + p_ℓ$ ，而TransR[25]將關係定義爲 $e_{t}M_{ℓ} \approx {e_{h}M_{ℓ} + p_ℓ}$ ，其中 $M_ℓ$ 是謂詞 $ℓ$ 的變換矩陣。最後，對於G中的所有事實，嵌入算法都會使 $e_t$ 與 $f(e_h，p_ℓ)$ 之間的總距離最小。一種典型的方法是定義基於邊距的排名標準，並對正樣本和負樣本進行訓練，即G中不存在的事實和綜合事實。

如圖1所示，對於 $i=1,....,M$ ，我們將一個由學習到的謂詞表示 ${p_i}$ 構成的曲面定義爲謂詞嵌入空間，對於 $i=1,....,M$ ，將由{e_i}構成的曲面表示實體嵌入空間。

謂詞和頭部實體學習模型，

給定一個簡單的問題，我們的目標是在謂詞嵌入空間中找到一個點作爲其謂詞表示 $\hat{p}_ℓ$ ，並在實體嵌入空間中找到一個點作爲其頭實體表示 $\hat{e}h$ 。

對於所有可以由 $G$ 回答的問題，其謂詞的向量表示必須位於謂詞嵌入空間中。因此，我們旨在設計一個以問題爲輸入並返回向量 $\hat{p}_ℓ$ 的模型，該向量儘可能接近該問題的謂詞嵌入表示 $p_ℓ$ 。爲了實現此目標，採用了一種簡單的神經網絡架構，如圖2所示。它主要由雙向遞歸神經網絡層和注意層組成。核心思想是考慮單詞的順序和重要性。順序不同的單詞可能具有不同的含義，單詞的重要性也可能不同。 例如，問題中與實體名稱相關的單詞通常對謂詞學習模型的貢獻較小。
圖2，提出的謂詞和頭部實體學習模型架構

基於神經網絡的謂詞表示學習

爲了預測問題的謂詞，傳統的解決方案是基於語義解析和手動創建的詞典來學習映射[3]，或者簡單地將每種謂詞類型視爲標籤類別，以將其轉換爲分類問題[29, 35]。但是，由於最終用戶的問題域通常是不受限制的，因此新問題的謂詞可能與訓練數據 $Q$ 中的所有謂詞都不同。傳統解決方案無法處理這種情況。此外，我們觀察到保留在 $P$ 和 $E$ 中的全局關係信息是可用的，並且可以潛在地用於提高總體問題回答的準確性。爲了彌合差距，我們開發了基於神經網絡的謂詞學習模型。

以長短期記憶（LSTM）[1]作爲遞歸神經網絡的典型示例，圖2展示了我們提出的解決方案的體系結構。給定一個長度爲 $L$ 的問題，首先我們將其 $L$ 個令牌映射到單詞嵌入向量 ${x_j}$ 的序列中，對於 $j=1,...,L$ ，基於一個預先訓練的模型，例如GloVe[31]。然後，我們使用雙向LSTM [1]來學習前向隱狀態序列 $(\vec{h_1},\vec{h_2},...,\vec{h_L})$ 和後向隱狀態序列 $（\overleftarrow{h_1}, \overleftarrow{h_2},...,\overleftarrow{h_L})$ 。以後向爲例，通過以下等式計算 ${\overleftarrow{h_j}}$ :
$f_j = \sigma(W_{xf}x_j+W_{hf}\overleftarrow{h}_{j+1}+b_f)............................................................(1)$
$i_j = \sigma(W_{xi}x_j+W_{hi}\overleftarrow{h}_{j+1}+b_i).............................................................(2)$
$\omicron_j = \sigma(W_{xo}x_j+W_{ho}\overleftarrow{h}_{j+1}+b_o)...........................................(3)$
$c_j = f_j\circ c_{j+1}+i_j tanh(W_{xc}x_j+W_{hc}\overleftarrow{h}_{j+1}+b_c)...............................(4)$
$\overleftarrow{h}_j=o_j \circ tanh(c_j).............................................................................................(5)$

其中 $f_j, i_j$ 和 $\omicron_j$ 分別是遺忘、輸入和輸出門的激活向量， $c_j$ 是單元狀態向量， $\sigma$ 和tanh是sigmoid和Hyperbolic正切函數。 $\circ$ 表示Hadamard乘積。我們將前向和後向的隱藏狀態向量連接起來，獲得 $h_j=[\overrightarrow{h}_j;\overleftarrow{h}_j]$ 。

根據以下公式計算第j個令牌(token)的注意力權重，即 $α_j$ ：
$\alpha_j=\frac {exp(q_j)} {\sum_{i=1}^L exp(q_i)}...........................................................(6)$
$q_j=tanh(w^T[x_j;h_j]+b_q)...............................................................(7)$
我們將注意力權重 $\alpha_j$ 應用到 $h_j$ 上，將其與詞嵌入嵌入 $x_j$ 連接，得到一個隱狀態 $s_j=[x_j;\alpha_j h_j]$ 。然後將一個全連接層應用到 $s_j$ 上，將其結果 $r_j \in \Reals^{d\times1}$ 作爲第j個token的目標向量。謂詞預測表示 $\hat{p}_\ell$ 被計算爲所有token目標向量的均值，即：
$\hat{p}_\ell = \frac {1} {L} \sum_{j=1}^{L}{r_j^T}.............................................................(8)$

所有權重矩陣，權重向量 $w$ 和偏差項都是根據訓練數據（即 $Q$ 中的問題及其謂詞的嵌入表示）來計算的。

基於神經網絡的頭部實體學習模型

給定一個問題，而不是直接推斷head實體，我們的目標是恢復其在KG嵌入空間中的表示。因此，頭部實體學習模型的目標是計算向量 $\hat{e}_h$ ，該向量應儘可能接近該問題的頭部實體嵌入表示。類似於 $\hat{p}_ℓ$ 的計算，我們使用圖2中相同的神經網絡架構來獲得預測的頭部實體表示 $\hat{e}_h$ 。

但是，KG中的實體數量通常很多，將 $\hat{e}_h$ 與 $E$ 中的所有實體嵌入表示進行比較時，可能會費力且噪音很多。爲了使學習更加有效，KEQA採用了頭部實體檢測模型來減少候選主實體的數量。

頭部實體檢測模型

在這一步驟中，我們的目標是選擇一個問題中的一個或幾個連續的記號作爲標題實體的名稱，以便可以將搜索空間從整個實體縮減爲多個具有相同或相似名稱的實體。這樣， $\hat{e}_t$ 的主要作用將變成處理歧義性的挑戰。

爲了簡化我們的框架，我們採用了雙向循環token檢測任務。這種頭部實體檢測（HED）模型的體系結構如圖3所示。它的結構與謂詞/頭部實體學習模型中的結構相似，但沒有關注層。對於 $j=1,...,L$ ,我們首先將問題映射到單詞嵌入向量 ${xj}$ 的序列中，然後將雙向遞歸神經網絡應用於 $x_j$ 以學習 $h_j=[\overrightarrow{h}_j;\overleftarrow{h}_j]$ 。然後將完全連接層和softmax函數應用於 $h_j$ ，得到目標向量 $r_j \in \Reals^{2\times1}$ 。 $v_j$ 中的兩個值對應於第j個token屬於兩個標籤類別的概率，即實體名稱令牌(entity name token)和非實體名稱令牌(non entity name token)。通過這種方式，我們將每個標記分類，並將一個或多個標記識別爲頭實體名稱。我們將這些token表示爲 ${HED}_{entity}$ ，並將問題中的其餘token表示爲 ${HED}_{non}$ 。

圖3：頭部實體檢測（HED）模型架構圖

我們使用Q中的問題及其主實體名稱作爲訓練數據來訓練HED模型。由於這些問題中的實體名稱標記是連續的，因此訓練後的模型也很有可能將連續的標記作爲 ${HED}_{entity}$ 返回。如果返回離散的 ${HED}_{entity}$ ，則每個連續的部分將被視爲獨立的頭部實體名稱。應該注意的是， ${HED}_{entity}$ 可能只是正確的頭實體名稱的一部分。因此，所有與 ${HED}_{entity}$ 相同或包含 ${HED}_{entity}$ 的實體都將被包括在內作爲候選的頭實體，這可能仍然很大，因爲許多實體在一個大的KG中會共享相同的名稱。

聯合搜索嵌入空間

對於每一個新的簡單問題，我們已經預測了它的謂詞和頭部實體表示，即 $\hat{p}_\ell$ 和 $\hat{e}_h$ ，以及它的候選頭部實體。我們的目標是在G中發現一個事實，即能夠最大匹配那些學到的表示和候選實體。

聯合距離矩陣

如果一個事實的頭部實體屬於候選頭部實體，那麼我們將其稱爲一個候選事實。令 $C$ 是收集所有候選事實的一個集合。爲了度量一個候選事實 $(h,ℓ,t)$ 和預測的表示之間的距離，一個直觀的解決方案是把 $(h,ℓ,t)$ 表示爲 $(e_h,p_ℓ)$ 並且定義距離矩陣，作爲 $e_h$ 和 $\hat{e}_h$ 之間的距離和 $p_ℓ$ 和 $\hat{p}_\ell$ 之間的距離之和。然而，這個解決方案沒有考慮到KG嵌入表示中保留的有意義的關係信息。

我們提出了一個聯合距離度量，利用了關係信息 $e_t \approx f(e_h, p_\ell)$ 的優勢。數學上，提出的聯合距離度量定義爲：
${minimize}_{{h,\ell,t}\in C} ||p_\ell-\hat{p}_\ell||_2+\beta_1||e_h-\hat{e}_h||_2+\beta_2||f(e_h,p_\ell)-\hat{e}_t||_2-\beta_3sim[n(h),HED_{entity}]-\beta_4sim[n(\ell),HED_{non}]......(9)$
其中 $\hat(e)_t=f(\hat{e}_h,\hat{p}_\ell)$ 。函數 $n(\cdot)$ 返回一個實體或謂詞的名稱。 $HED_{entity}$ 和 $HED_{non}$ 由HED模型定義的被分爲爲實體名稱和非實體名稱的token。函數 $sim[\cdot,\cdot]$ 度量了兩個字符串的相似性。 $\beta_1,\beta_2,\beta_3,\beta_4$ 是預定義的權重，用來平衡每個term的貢獻。·本文中，我們使用 $\ell_2$ 範式度量這個距離，並且它可以直接擴展到其他向量距離度量。

首先等式9中的三個term度量了在一個KG嵌入空間中一個事實 $(h,ℓ,t)$ 與我們預測的之間的距離。我們使用 $f(e_h,p_\ell)$ 來表示尾部實體的嵌入向量，而不是 $e_t$ 。這是因爲，在KG中，可能有多個事實，它們具有相同的頭部實體和謂詞，但是不同的尾部實體。因此，一個單獨的尾部實體 $e_t$ 可能無法回答問題。與此同時， $f(e_h，p_ℓ)$ 匹配預測的尾部實體 $\hat{e}_t$ ，因爲它也基於 $f(\cdot)$ 推斷出來。我們傾向於選擇一個事實，其頭實體名稱與 $HED_{entity}$ 完全相同，並且問題提及謂詞名稱。我們通過等式9中的第四和第五項來分別實現這兩個目標。返回使目標函數最小化的事實 $(h^∗，ℓ^∗，t^∗)$ 。

基於知識嵌入的問答

在算法1中總結了KEQA的整個過程。給定一個KG和一個帶有相應答案的問題集Q，我們訓練謂詞學習模型，一個頭部實體學習模型和一個HED模型，如第1行到第9行所示。對於任何新的簡單問題Q，我們將其輸入到經過訓練的謂詞學習模型，頭部實體學習模型和HED模型中，以學習其預測的謂詞表示 $\hat{p}_ℓ$ ，頭部實體表示 $\hat{e}_h$ ，實體名稱標記 $HED_{entity}$ 和非實體名稱標記 $HED_{non}$ 。基於 $HED_{entity}$ 中學習到的實體名/名稱，我們搜索整個 $G$ 以找到候選事實集 $C$ 。對於 $C$ 中的所有事實，我們根據等式9中的目標函數計算它們與預測的表示形式的聯合距離 $（\hat{e}_h，\hat{p}_ℓ，\hat{e}_t）$ 。選擇具有最小距離的事實 $(h^∗，ℓ^∗，t^∗)$ 。最後，我們返回頭部實體 $h^*$ 和 $ℓ^∗$ 謂詞作爲Q的答案。

算法1：KEQA 框架

總之，提出的框架KEQA具有幾個不錯的特性。首先，通過基於KG嵌入執行問題回答，KEQA能夠使用與訓練數據中所有謂詞和實體不同的謂詞和實體來處理問題。其次，通過利用KG嵌入表示中保留的結構和關係信息，KEQA可以聯合執行頭實體，謂詞和尾實體預測。這三個子任務將相互補充。第三，KEQA可推廣到不同的KG嵌入算法。因此，可以通過更復雜的KG嵌入算法來進一步提高KEQA的性能。

實驗

我們在大型QA-KG基準上評估所提出框架KEQA的有效性和可推廣性。在本節中，我們旨在研究以下三個研究問題：

Q1：與目前最先進的QA-KG方法相比，KEQA的效果如何。不同的freebase子集呢？
Q2：當採用不同的KG嵌入算法時，KEQA的性能如何變化？
Q3：KEQA的目標函數包括五個項，如等式9所示。每項貢獻多少？

數據集

我們首先介紹實驗中使用的知識圖子集和問答數據集。所有數據都是公開可用的。其統計信息如表2所示。

FB2M和FB5M [19]：Freebase通常被視爲可靠的KG，因爲它主要是由社區成員收集和整理的。本文使用了兩個較大的Freebase子集，即FB2M和FB5M。表2中列出了它們的謂詞編號M和實體編號N。重複的事實已被刪除。 Freebase的應用程序編程接口（API）不再可用。因此，我們使用實體名稱collection3來建立實體及其名稱之間的映射。
SimpleQuestions [6]：它包含與相關事實相關的一萬多個簡單問題。所有這些事實都屬於FB2M。所有問題均由講英語的人根據事實和上下文來表述。它已被用作最近的QA-KG方法的基準[6，18，29]。

實驗環境設置

爲了評估QA-KG方法的性能，我們遵循傳統設置[10、27、46]，並使用與SimpleQuestions [6]中最初提供的相同的訓練集，驗證集和測試集。將FB2M或FB5M用作KG $G$ 。然後將KG嵌入算法（例如TransE [7]和TransR [25]）應用於 $G$ 來學習 $P$ 和 $E$ 。應注意， $P$ 和 $E$ 不是額外的信息資料來源。然後，使用QA-KG方法來預測測試集中每個問題的標題實體和謂詞。它的性能通過正確預測首部實體和謂詞的準確性來衡量。
正如我們在正式問題定義中所主張的那樣，評估標準是指預測新問題的準確性（正確的主謂和正確的謂詞）。 KG嵌入表示 $d$ 的維數設置爲250。使用基於GloVe [31]的預訓練詞嵌入。爲了測量兩個字符串的相似性，即構建函數sim，我們使用實現Fuzzy(https://pypi.org/project/Fuzzy/)。如果不是特定的，則將使用KG嵌入算法TransE [7]來學習所有謂詞 $P$ 和實體 $E$ 的嵌入表示。

KEQA的有效性

現在，我們回答本節開始時提出的第一個研究問題，即KEQA有多有效。我們包括7種最新的QA-KG算法和KEQA的一種變體作爲基準：

Bordes等[6]：它根據訓練問題學習單詞，謂詞和實體的潛在表示形式，以便可以將新問題和候選事實投影到同一空間中並進行比較。
Dai等[10]：它使用基於雙向門控遞歸單元的神經網絡對候選謂詞進行排名。使用了來自freebase API的建議。
Yin等[46]：它使用字符級卷積神經網絡來匹配問題和謂詞。
Golub和He[18]：它設計了一個字符級和基於注意力的LSTM來編碼和解碼問題。
Bao等[2]：它手動定義了幾種約束類型，並執行約束學習以處理複雜的問題，其中每個問題與多個事實有關。使用了額外的訓練問題和freebase API。
Lukovnikov等[27]：它利用字符級門控循環單元神經網絡將問題和謂詞/實體投射到同一空間中。
Mohammed等[29]：將謂詞預測視爲分類問題，並使用不同的神經網絡對其進行求解。它基於Fuzzy執行實體鏈接。
KEQA_noEmbed：不使用KG嵌入算法。相反，它隨機生成謂詞和實體嵌入表示 $P$ 和 $E$ 。

如上面的導言所示，所有基線都利用了深度學習模型來改進其方法。我們使用他們在相應論文或作者的實現中報告的結果。在SimpleQuestions上不同方法的性能，即FB2M和FB5M，在表3中列出：

正如其他幾項工作[27，29]所述，一些算法[10，46]實現了高精度，但是它們要麼使用了額外的信息源，要麼沒有可用的實現[35，47]。額外的訓練數據freebase API建議，freebase實體鏈接結果和訓練有素的細分模型。它們依賴於不再可用的freebase API。相反，我們的框架KEQA使用了不完整的實體名稱collection(https://github.com/zihangdai/CFO)。因此，對於Dai等人[10]和Yin等人[46]，我們報告了它們結果，當不使用額外的訓練數據時。有兩項工作[35，47]聲稱精度更高，但沒有公開可用的實現。我們無法複製它們，其他工作也指出了這一點[29]。

從表3的結果中，我們得出三個結論。首先，提出的框架KEQA優於所有基準。與發佈SimpleQuestions時的準確性相比，KEQA的準確性提高了20.3％[6]。其次，與KEQA_noEmbed相比，KEQA的準確性提高了3.1％。它表明單獨的任務KG嵌入確實可以幫助回答問題。第三，當應用於FB5M時，KEQA的性能下降0.7％。這是因爲所有基礎事實都屬於FB2M [6]，而FB5M的事實比FB2M多26.1％。
通過共同預測問題的謂語和主語，KEQA的準確性爲0.754。在謂詞預測子任務中，KEQA在驗證集上的精度爲0.815，這比Mohammed等人最近獲得的精度0.828差[29]。這種差距表明我們的框架可能會通過更復雜的模型得到進一步改善。然而，KEQA仍然優於Mohammed等[29]在簡單的問答任務中。這證實了我們提議的共同學習框架的有效性。通過共同學習，在測試集和FB2M上，KEQA預測頭實體的準確性爲0.816，預測頭實體和謂詞的準確性爲0.754，預測整個事實的準確性爲0.680。這意味着FB2M中不存在某些ground truth事實。

泛化能力和魯棒性評估

KEQA的泛化能力。

爲了研究使用不同的KG嵌入算法時KEQA的通用性，我們在比較中包括了三種可擴展的KG嵌入方法。詳細介紹如下：

KEQA_TransE：TransE[7]被用來執行KG嵌入。它是一種典型的基於translation的方法。它定義一個關係函數爲 $e_t \approx f(e_h,p_\ell)=e_h+p_\ell$ ，並且然後執行基於邊距的排名，使所有事實方法都滿足關係函數。
KEQA_TransH：TransH[39]被用來執行KG嵌入。TransH和TransE類似，定義關係函數爲 $e_{t}^{\perp} \approx e_h^\perp +p_\ell$ ，其中 $e_t^\perp = e_t-m_{\ell}^{\perp}e_t m_\ell$ ，並且 $m_\ell$ 是謂詞 $\ell$ 的超平面。
KEQA_TransR：TransR[25]與TransE類似，定義關係函數爲 $e_tM_\ell \approx e_h M_\ell +p_\ell$ ，其中 $M_\ell$ 是 $\ell$ 的變換矩陣(transform matrix)。

表4顯示了不使用KG嵌入和不使用KG嵌入算法時KEQA的性能。從結果來看，我們有三個主要觀察結果。首先，KG嵌入算法提高了KEQA的性能。例如，與KEQA_noEmbed相比，基於TransE的KEQA可獲得3.1％的改進。其次，當使用不同的KG嵌入算法時，KEQA具有相似的性能。它證明了KEQA的推廣性。第三，即使不使用KG嵌入，KEQA仍可以達到與表3所示的最新QA-KG方法相當的性能。它證明了KEQA的魯棒性。隨機生成的P和E可以達到可比性能的原因是，它傾向於使所有pℓ均勻分佈並且彼此遠離。這會將表示預測問題轉換爲類似於分類任務的問題。

KEQA的魯棒性

爲了進一步驗證KEQA的魯棒性，我們重新組合了SimpleQuestions中的所有108,442個問題，並獲得了一個名爲SimpleQ_Missing的新數據集。爲了執行改組，我們將所有謂詞類型隨機分爲三組，並根據謂詞將問題分配給這些組。因此，在SimpleQ_Missing中，訓練和驗證拆分中從未提及測試拆分中所有相應的謂詞。最後，我們在訓練分組中獲得75,474個問題，在驗證分組中獲得11,017個問題，在測試分組中獲得21,951個問題，其比率與SimpleQuestions中的比率大致相同。表4顯示了在SimpleQ_Missing上使用不同KG嵌入算法的KEQA的性能。
從表4的結果中，我們可以看到，藉助TransE，KEQA仍可以達到0.418的精度。 KG嵌入表示P和E中保留的全局關係和結構信息使KEQA的性能比Random高8.3％。這些觀察證明了KEQA的魯棒性。

參數分析

現在，我們研究KEQA的目標函數中的每個術語可以貢獻多少。如等式9所示，我們的目標函數中有五項。我們確認KEQA的表現，也就是三組不同的術語組合。爲了研究等式9中每個單項的貢獻。在第一組，即Only_Keep中，我們僅保留五個項之一作爲新的目標函數。爲了研究缺少五個術語之一的影響，在第二組中，即“刪除”，我們刪除了五個術語之一。爲了研究累積的貢獻，在第三組（即累積）中，我們逐項添加術語作爲新的目標函數。 KEQA的表現，FB2M上不同的目標函數組如表5所示。

根據表5的結果，我們有三個主要觀察結果。首先，預測謂詞表示 $\hat{p}_ℓ$ 在我們的框架中具有最重要的作用。第一項單獨達到0.728的精度。這是因爲謂詞的數量1837比訓練問題的數量75910小得多。其次，預測的頭部實體表示 $\hat{e}_h$ 可以在聯合學習中補充 $\hat{p}_ℓ$ 。使用 $\hat{e}_h$ 時，精度從0.728提高到0.745。由於實體的總數N太大，例如FB2M中的N = 1,963,115，第二項單獨使用獲得了低的精度。第三，謂詞名稱 $n(ℓ)$ 將KEQA的性能提高1.1％。可以用以下事實來解釋：某些話語與相應的謂語名稱共享一些單詞。

總結與展望

知識圖上的問題解答是一個關鍵問題，因爲它使常規用戶可以通過自然語言輕鬆訪問大型知識圖中有價值但複雜的信息。這也是一個具有挑戰性的問題，因爲謂詞可能具有不同的自然語言表達。對於機器而言，很難捕獲其語義信息。另外，即使假設問題的實體名稱正確識別，實體名稱和部分名稱的歧義仍然會使候選實體的數量變大。

爲了彌合差距，我們研究了一種基於問答的新型知識圖嵌入方法，並設計了一種簡單有效的框架KEQA。它旨在解決簡單的問題，即QA-KG中最常見的問題類型。 KEQA提議在KG嵌入空間中共同恢復問題的頭部實體，謂詞和尾部實體表示，而不是直接推斷頭部實體和謂詞。基於注意力的雙向LSTM模型用於執行謂詞和頭部實體表示學習。由於與KG中的所有實體進行比較既昂貴又嘈雜，因此使用頭實體檢測模型來選擇問題中的後續標記作爲頭實體的名稱，這樣候選頭實體集將減少爲多個具有相同或相似名稱的實體。給定預測事實 $\hat{e}_h，\hat{p}_ℓ，\hat{e}_t$ ，可以使用精心設計的聯合距離度量標準來度量其與所有候選事實的距離。返回最小距離的事實作爲答案。大型基準測試表明，KEQA的性能要優於所有最新方法。

在未來的工作中，我們計劃研究後續的未解決問題。（i）KEQA根據預先訓練的KG嵌入執行問題回答。我們如何通過聯合進行KG嵌入和問題解答來提高它？（ii）現實世界中的知識圖譜和訓練問題通常會動態更新。我們如何擴展我們的框架來處理這種情況？

參考文獻

[1] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. 2015.Neural Machine Translation by Jointly Learning to Align and Translate. In ICLR.

[2] Junwei Bao, Nan Duan, Zhao Yan, Ming Zhou, and Tiejun Zhao. 2016. Constraint- Based Question Answering with Knowledge Graph. In COLING. 2503–2514.

[3] Jonathan Berant, Andrew Chou, Roy Frostig,and Percy Liang.2013. Semantic Parsing on Freebase from Question-Answer Pairs. In EMNLP. 1533–1544.

[4] Roi Blanco, Giuseppe Ottaviano, and Edgar Meij. 2015. Fast and Space-Efficient Entity Linking for Queries. In WSDM. 179–188.

[5] Antoine Bordes, Sumit Chopra, and Jason Weston. 2014. Question Answering with Subgraph Embeddings. In EMNLP. 615–620.

[6] Antoine Bordes, Nicolas Usunier, Sumit Chopra, and Jason Weston. 2015. Large- Scale Simple Question Answering with Memory Networks. arXiv preprint arXiv:1506.02075 (2015).

[7] Antoine Bordes, Nicolas Usunier, Alberto Garcia-Duran, Jason Weston, and Ok-sana Yakhnenko. 2013. Translating Embeddings for Modeling Multi-relational Data. In NIPS. 2787–2795.

[8] Antoine Bordes, Jason Weston, Ronan Collobert, and Yoshua Bengio. 2011. Learn-in Structured Embeddings of Knowledge Bases.
In AAAI.

[9] Antoine Bordes, Jason Weston, and Nicolas Usunier. 2014. Open Question An- swering with Weakly Supervised Embedding Models. In ECML PKDD. 165–180.

[10] Zihang Dai, Lei Li, and Wei Xu. 2016. CFO: Conditional Focused Neural Question Answering with Large-Scale Knowledge Bases. arXiv preprint arXiv:1606.01994 (2016).

[11] Rajarshi Das, Manzil Zaheer, Siva Reddy, and Andrew McCallum. 2017. Question Answering on Knowledge Bases and Text using
Universal Schema and Memory Networks. In ACL.

[12] Li Dong, Furu Wei, Ming Zhou, and Ke Xu. 2015. Question Answering Over Freebase With Multi-Column Convolutional Neural Networks. In ACL-IJCNLP. 260–269.

[13] Anthony Fader, Luke Zettlemoyer, and Oren Etzioni. 2013. Paraphrase-Driven Learning for Open Question Answering. In ACL. 1608–1618.

[14] Miao Fan, Kai Cao, Yifan He, and Ralph Grishman. 2015. Jointly Embedding Relations and Mentions for Knowledge Population. In RANLP. 186–191.

[15] Miao Fan, Yue Feng, Mingming Sun, Ping Li, Haifeng Wang, and Jianmin Wang. 2018. Multi-Task Neural Learning Architecture for End-to-End Identification of Helpful Reviews. In ASONAM. 343–350.

[16] Miao Fan, Wutao Lin, Yue Feng, Mingming Sun, and Ping Li. 2018. A Globalization- Semantic Matching Neural Network for Paraphrase Identification. In CIKM. 2067– 2075.

[17] Miao Fan, Qiang Zhou, Thomas Fang Zheng, and Ralph Grishman. 2017. Dis- tributed Representation Learning for Knowledge Graphs with Entity Descriptions. Pattern Recognition Letters 93 (2017), 31–37.

[18] David Golub and Xiaodong He. 2016. Character-Level Question Answering with Attention. In EMNLP. 1598–1607.

[19] Google. 2018. Freebase Data Dumps. https://developers.google.com/freebase.

[20] Dilek Hakkani-Tür, Asli Celikyilmaz, Larry Heck, Gokhan Tur, and Geoff Zweig. 2014. Probabilistic Enrichment of Knowledge Graph Entities for Relation Detec- tion in Conversational Understanding. In INTERSPEECH.

[21] Yanchao Hao, Yuanzhe Zhang, Kang Liu, Shizhu He, Zhanyi Liu, Hua Wu, and Jun Zhao. 2017. An End-to-End Model for Question Answering over Knowledge Base with Cross-Attention Combining Global Knowledge. In ACL. 221–231.

[22] Jens Lehmann, Robert Isele, Max Jakob, Anja Jentzsch, Dimitris Kontokostas, Pablo N Mendes, Sebastian Hellmann, Mohamed Morsey, Patrick Van Kleef, Sören Auer, et al. 2015. DBpedia–A Large-Scale, Multilingual Knowledge Base Extracted From Wikipedia. Semantic Web 6, 2 (2015), 167–195.

[23] Dingcheng Li, Jingyuan Zhang, and Ping Li. 2018. Representation Learning for Question Classification via Topic Sparse Autoencoder and Entity Embedding. In IEEE Big Data.

[24] Yankai Lin, Zhiyuan Liu, Huanbo Luan, Maosong Sun, Siwei Rao, and Song Liu. 2015. Modeling Relation Paths for Representation Learning of Knowledge Bases. In EMNLP. 705–714.

[25] Yankai Lin, Zhiyuan Liu, Maosong Sun, Yang Liu, and Xuan Zhu. 2015. Learning Entity and Relation Embeddings for Knowledge Graph Completion. In AAAI. 2181–2187.

[26] Teng Long, Ryan Lowe, Jackie Chi Kit Cheung, and Doina Precup. 2016. Leverag- ing Lexical Resources for Learning Entity Embeddings in Multi-Relational Data.In ACL. 112–117.

[27] Denis Lukovnikov, Asja Fischer, Jens Lehmann, and Sören Auer. 2017. Neural Network-Based Question Answering over Knowledge Graphs on Word and Character Level. In WWW. 1211–1220.

[28] Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado, and Jeff Dean. 2013. Distributed Representations of Words and Phrases
and Their Compositionality. In NIPS. 3111–3119.

[29]Salman Mohammed, Peng Shi, and Jimmy Lin. 2018. Strong Baselines for Simple Question Answering over Knowledge Graphs with and without Neural Networks. In NAACL-HLT. 291–296. https://github.com/castorini/BuboQA

[30] Aasish Pappu, Roi Blanco, Yashar Mehdad, Amanda Stent, and Kapil Thadani. 2017. Lightweight Multilingual Entity Extraction and Linking. In WSDM. 365– 374.

[31] Jeffrey Pennington, Richard Socher, and Christopher Manning. 2014. GloVe: Global Vectors for Word Representation. In EMNLP. 1532–1543.

[32]Richard Socher, Danqi Chen, Christopher D. Manning, and Andrew Y. Ng. 2013. Reasoning with Neural Tensor Networks
for Knowledge Base Completion. In NIPS. 926–934.

[33]Fabian M Suchanek, Gjergji Kasneci, and Gerhard Weikum. 2007. YAGO: A Core of Semantic Knowledge. In WWW. 697–706.

[34] Yi Tay, Anh Tuan Luu, Siu Cheung Hui, and Falk Brauer. 2017. Random Semantic Tensor Ensemble for Scalable
Knowledge Graph Link Prediction. In WSDM. 751– 760.

[35] Ferhan Ture and Oliver Jojic. 2017. No Need to Pay Attention: Simple Recurrent Neural Networks Work!. In EMNLP. 2866–2872.

[36] Quan Wang, Zhendong Mao, Bin Wang, and Li Guo. 2017. Knowledge Graph Embedding: A Survey of Approaches and Applications. TKDE 29, 12 (2017), 2724–2743.

[37] Zhigang Wang and Juanzi Li. 2016. Text-Enhanced Representation Learning for Knowledge Graph. In IJCAI. 1293–1299.

[38]Zhen Wang, Jianwen Zhang, Jianlin Feng, and Zheng Chen. 2014. Knowledge Graph and Text Jointly Embedding. In EMNLP. 1591–1601.

[39]Zhen Wang, Jianwen Zhang, Jianlin Feng, and Zheng Chen. 2014. Knowledge Graph Embedding by Translating on Hyperplanes. In AAAI.

[40]Jason Weston, Antoin Bordes, Oksana Yakhnenko, and Nicolas Usunier. 2013. Connecting Language and Knowledge Bases with Embedding Models for Relation Extraction.In EMNLP. 1366–1371.

[41]Han Xiao, Minlie Huang, Lian Meng, and Xiaoyan Zhu. 2017. SSP: Semantic Space Projection for Knowledge Graph Embedding with Text Descriptions. In AAAI. 3104–3110.

[42]Ruobing Xie, Zhiyuan Liu, Jia Jia, Huanbo Luan, and Maosong Sun. 2016. Rep- resentation Learning of Knowledge Graphs with Entity Descriptions. In AAAI. 2659–2665.

[43]Min-Chul Yang, Nan Duan, Ming Zhou, and Hae-Chang Rim. 2014. Joint Rela- tional Embeddings for Knowledge-Based Question Answering. In EMNLP. 645– 650.

[44]Min-Chul Yang, Do-Gil Lee, So-Young Park, and Hae-Chang Rim. 2015. Knowledge-Based Question Answering Using the Semantic
Embedding Space. Expert Systems with Applications 42, 23 (2015), 9086–9104.

[45]Scott Wen-tau Yih, Ming-Wei Chang, Xiaodong He, and Jianfeng Gao. 2015. Semantic Parsing via Staged Query Graph Generation:
Question Answering with Knowledge Base. In ACL-IJCNLP.

[46]Wenpeng Yin, Mo Yu, Bing Xiang, Bowen Zhou, and Hinrich Schütze. 2016. Simple Question Answering by Attentive Convolutional
Neural Network. In COLING. 1746–1756.

[47]Mo Yu, Wenpeng Yin, Kazi Saidul Hasan, Cicero dos Santos, Bing Xiang, and Bowen Zhou. 2017. Improved Neural Relation Detection for Knowledge Base Question Answering. In ACL. 571–581.

[48]Dongxu Zhang, Bin Yuan, Dong Wang, and Rong Liu. 2015. Joint Semantic Relevance Learning with Text Data and Graph Knowledge. In Workshop on Continuous Vector Space Models and their Compositionality. 32–40.

[49]Fuzheng Zhang, Nicholas Jing Yuan, Defu Lian, Xing Xie, and Wei-Ying Ma. 2016. Collaborative Knowledge Base Embedding for Recommender Systems. In KDD. 353–362.

[50]Huaping Zhong, Jianwen Zhang, Zhen Wang, Hai Wan, and Zheng Chen. 2015. Aligning Knowledge and Text Embeddings by Entity Descriptions. In EMNLP. 267–272.

【PaperReading】Knowledge Graph Embedding Based Question Answering

Knowledge Graph Embedding Based Question Answering