論文題目：A Survey on Knowledge Graphs: Representation, Acquisition and Applications

論文來源：AAAI 2020 Philip S. Yu等人

關鍵詞：知識圖譜，表示學習，知識圖譜補全，關係抽取，知識推理

待更新…
PS. 以後再也不翻譯綜述了，實在是太長了，也看不下去[捂臉哭泣]。
個人感覺這篇文章看一看每個小結的總結就行了，中間主要是方法的列舉。
（都翻譯了這麼多，也不想接下來只翻譯小結，還是善始善終吧）

1 摘要

知識圖譜表示了實體間結構化的關係，已成爲和認知與人工智能相關的熱門的研究方向。

本篇綜述介紹了知識圖譜在不同領域的研究，包括：（1）知識圖譜表示學習；（2）知識的獲取和補全；（3）時序知識圖譜：（4）知識感知的應用。本文還總結了近期的研究突破以及未來的研究方向。

知識圖譜的嵌入考慮四個方面：表示空間、打分函數、編碼模型和輔助信息。

對於知識的獲取，尤其是知識補全、嵌入方法、路徑推斷和邏輯規則推理進行了綜述。

本文還進一步探討了一些新興的主題，包括元關係學習、常識推理和時序知識圖譜。

爲了方便未來對知識圖譜的研究，本文還提供了一個針對不同任務的數據集和開源庫。

文章的最後分析了未來有前景的研究方向。

2 引言

（1）知識圖譜（KG）的概念

人類知識的引入是AI的研究方向之一。知識表示和推理是爲了給人工智能系統提供其可處理的知識，讓其像人類一樣具有解決複雜任務的能力。知識圖譜可以以結構化的形式表示人類知識，近些年來在學術界和工業界均引起了廣泛的關注。

知識圖譜是事實（facts）、實體、關係以及語義描述的結構化表示。實體可以是真實世界中的物體，也可以是抽象的概念。關係表示了實體間的關係。關於實體和實體間關係的語義描述包含了預先定義好的類型和屬性。屬性圖是廣泛使用的一種圖，圖中的節點和關係有自己的屬性。

（2）知識圖譜（KG）與知識庫（KB）

知識圖譜和知識庫大致上是近義詞，但是有一點點區別。

當考慮圖結構時，知識圖譜可以視爲一個圖。當它涉及到形式語義（formal semantics）時，可以視爲用於解釋和推斷事實的知識庫。知識庫和知識圖譜的例子如圖1所示：

知識庫可以表示成資源描述符框架（RDF）下的事實三元組，例如三元組可以是 $(head, relation, tail), (subject, predicate, object)$ 。也可以使用有向圖進行表示，節點表示實體，邊表示關係。

爲了簡化並順應研究領域的趨勢，本文將知識圖譜和知識庫同等看待。

（3）基於知識圖譜的研究

1）知識圖譜的表示學習

近期的基於知識圖譜的研究關注於知識表示學習（KRL）或知識圖譜的嵌入學習（KGE），主要思想是利用實體和關係的語義信息，將實體和關係映射成低維的向量表示。

2）知識的獲取

知識的獲取任務包括知識圖譜的補全（KGC）、三元組分類、實體識別和關係抽取。

3）知識感知的模型

異質的信息、多語言的知識以及用於知識表示的豐富的實體和語義信息，有助於知識感知的模型。

因此，一些具有常識理解和推理的推薦系統、問答系統等獲得了巨大的成功。例如微軟的Satori和谷歌的知識圖譜，在許多應用中表現出了強有效的服務能力。

（4）本文貢獻

本文聚焦於知識表示，其使用更多的上下文（context）、智慧（intelligence）和語義信息來豐富圖，以用於知識的獲取和知識感知的應用。本文的主要貢獻總結如下：

1）全面的闡述：

本文對知識圖譜的起源和現代知識圖譜關係學習技術進行了全面的綜述。介紹並比較了主要的用於知識圖譜表示學習和推理的神經模型。此外，還提供了不同領域中許多應用的完整概述。

2）全視角的分類以及新的分類標準

本文對知識圖譜上的研究進行了全視角的分類，並提出了細粒度的新的分類標準。

我們從3個角度考慮知識圖譜：知識圖譜的表示學習（KRL）、知識的獲取、知識感知的應用。

對於KRL的方法，作者進一步提出了細粒度的分類模式，一共有4類：表示空間、打分函數、編碼模型以及輔助信息。

對於知識的獲取，分爲知識圖譜的補全（KGC）、實體-關係的獲取以及關係的抽取。1）針對KGC，從基於嵌入的排序、關係路徑推理、邏輯規則推理以及元關係學習等方面進行綜述；2）實體-關係的獲取任務分爲實體的識別、標註、消歧以及對齊；3）關係抽取根據神經範式（neural paradigms）進行討論。

3）對最新研究進展的綜述

知識圖譜發展迅速，本文廣泛涉及到了知識圖譜的許多研究問題，包括基於transformer的知識編碼、基於GNN的知識傳播、基於強化學習的路徑推理以及元關係學習。

4）總結並展望未來的研究方向

本文在每個分類都進行了總結，並突出強調了有前景的未來研究方向。

3 概覽

3.1 簡述知識庫的發展歷史

圖結構知識表示的想法最早可以追溯到1956年由Richens提出的語義網的概念。symbolic logic knowledge可以追溯到1959年提出的General Problem Solver。

知識庫一開始是用於基於知識的系統，解決推理任務或者其他問題。MYCIN最著名的基於規則的專家系統之一，使用有600條規則的知識庫進行醫學診斷。然後又有了基於框架的語言、基於規則的和混合表示的發展。在這一時期的最後，Cyc項目開始了，旨在彙集人類的知識。

之後資源描述框架（RDF）和Web本體語言（OWL）依次發佈，成爲語義網的重要標準。

接下來許多開放的知識庫相繼發佈，例如WordNet、DBpedia、YAGO和Freebase。

Stokman和Vries在1988年提出結構知識圖的新思想。然而，在2012年Google搜索引擎應用了知識圖譜，才使得知識圖譜得到了廣泛的關注。

知識庫歷史的road map見附錄A

3.2 定義和符號

將知識圖譜定義成 $\mathcal{G} = {\{\mathcal{E}, \mathcal{R}, \mathcal{F}}\}$ ，其中 $\mathcal{E}, \mathcal{R}, \mathcal{F}$ 分別表示實體、關係和事實的集合。一個事實定義成三元組 $(h, r, t)\in \mathcal{F}$ 。

一些符號和它們對應的描述如表1所示：

3.3 知識圖譜上研究的分類

本文對知識圖譜上的研究進行了綜述，包括知識圖譜表示學習、知識的獲取以及下游的知識感知的任務。整體的分類如圖2所示：

（1）知識表示學習（KRL）

KRL是知識獲取和下游任務等的基礎，我們將KRL分爲4個角度：表示空間、打分函數、編碼模型以及輔助信息：

1）表示空間指的是關係和實體將要被映射到的空間；

2）打分函數用於衡量事實三元組的合理性；

3）編碼模型表示並學習到了關係間的交互；

4）輔助信息可合併到嵌入學習的方法中。

表示學習包括point-wise空間、流型（manifold）空間、複雜（complex）向量空間、高斯分佈以及離散空間。

打分函數通常分爲基於距離的和基於相似度匹配的函數。

目前的關於編碼模型的研究工作主要有線性/雙線性模型、基於分解的模型以及神經網絡。

輔助信息包括文本的、視覺的和類型信息。

（2）知識的獲取

知識的獲取任務分爲3類：

1）知識圖譜的補全（KGC）：

用於擴展已有的知識圖譜，還可分爲以下幾類：基於嵌入的排序、關係路徑推理、基於規則的推理以及元關係學習。

2）關係抽取：發現新的關係知識，關係抽取模型有的利用了注意力機制、GCN、對抗訓練、強化學習、深層殘差學習（deep residual learning）以及遷移學習。

3）實體發現：發現新的實體知識，包括實體識別、實體消歧、實體分類和實體對齊。

（3）時序知識圖譜

合併了時序知識用於表示學習，分爲4類：1）時序嵌入；2）動態的實體；3）時序關係依賴；4）時序邏輯推理。

（4）知識感知的應用

包括自然語言理解（NLU）、問答、推薦系統和需要知識來提高表示學習能力的各種各樣的應用。

3.4 相關的其他綜述

有兩個綜述分別關注於KGE[1]和KRL[2]，和本文的工作最相關。

[1]使用線性的方式呈現KRL，側重於定量分析。[2]根據打分函數對KRL方法進行了分類，並特別關注於KRL中使用到的信息的類型。

本篇綜述從更深的角度闡述KRL，並且從4個角度提供了全方位的綜述。而且本文還對知識獲取和知識感知的應用進行了綜述，涉及到了一些正在興起的方向，例如基於知識庫的推理、少樣本學習等。

4 知識表示學習

知識表示學習（KRL）也可稱爲知識嵌入學習（KGE）、多關係學習和統計關係學習（SRL）。本節從4個角度介紹了最近的使用豐富的實體和關係中的語義信息進行分佈的表示學習方法。

4.1 表示空間

表示學習的關鍵就是學習得到實體和關係的低維嵌入。現有的研究主要使用實值的point-wise地空間（如圖 3a所示），包括向量、矩陣和張量空間，也有使用其他類型的空間例如複雜向量空間（圖 3b）、高斯空間（圖 3c）和Manifold space（圖 3d）。

4.1.1 point-wise空間

point-wise歐式空間廣泛用於實體和關係的表示，用於將關係嵌入映射到向量或矩陣空間或者捕獲關係的交互信息。

TransE在 $d$ 維的向量空間中表示實體和關係，例如 $\mathbf{h}, \mathbf{t}, \mathbf{r} \in \mathbb{R}^d$ ，使得嵌入服從如下的轉換規則： $\mathbf{h} + \mathbf{r} \approx \mathbf{t}$ 。

TranE方法是將實體和關係映射到同一個空間，TransR對其進行了改進，爲實體和關係引入了分離的空間。作者通過映射矩陣 $M_r\in \mathbb{R}^k$ 將實體（ $\mathbf{h}, \mathbf{t}\in \mathbb{R}^k$ ）映射到了關係（ $\mathbf{r}\in \mathbb{R}^d$ ）所在的空間。

NTN[3]使用雙線性張量神經層（bilinear tensor neural layer）跨多維對實體進行建模。

一些其他的translational models例如TransH也使用了相似的表示空間。語義匹配的模型使用了plain vector space（例如 HolE）和關係映射矩陣（例如 ANALOGY)。這些translational模型和語義匹配模型的規則將分別在4.2.1和4.2.2介紹。

4.1.2 複雜向量空間（Complex Vector Space）

不將實體和關係表示在實值的空間中，而是表示在一個複雜空間中，其中 $\mathbf{h}, \mathbf{t}, \mathbf{r} \in \mathbb{C}^d$ 。以 $\mathbf{h}$ 爲例，它有實值部分 $Re(\mathbf{h})$ 也有虛值部分 $Im(\mathbf{h})$ ， $\mathbf{h}=Re(\mathbf{h}) + i Im(\mathbf{h})$ 。

ComplEx首先引入了圖 3b所示的複雜向量空間，可以捕獲到對稱的和反對稱的關係。使用hermitian點乘來結合頭實體和關係，以及尾實體的共軛。

受歐拉公式 $e^{i\theta} = cos\theta + isin\theta$ 的啓發，RotatE提出了一個旋轉的模型（rotational model），將關係作爲在complex space中從頭實體到尾實體的rotation，例如 $\mathbf{t} = \mathbf{h} \circ \mathbf{r}$ ，其中的 $\circ$ 表示element-wise的Hadmard乘積。

QuatE使用一個帶有3個虛部的四元組 $Q=a+b\mathbf{i}+c\mathbf{j}+d\mathbf{k}$ 將complex-wise space擴展成hypercomplex $\mathbf{h}, \mathbf{t}, \mathbf{r} \in \mathbb{H}^d$ 。

4.1.3 高斯分佈

受高斯詞嵌入啓發，基於密度的嵌入模型KG2E引入了高斯分佈來處理確定的/不確定的實體和關係。作者將實體和關係嵌入到了一個多維度的高斯分佈 $\mathcal{H}\sim \mathcal{N}(\mu_h, \sum_h)$ 和 $\mathcal{T}\sim \mathcal{N}(\mu_h, \sum_h)$ 中。均值向量 $\mu$ 表示了實體和關係的位置，協方差矩陣 $\sum$ 建模了它們的確定性/不確定性。根據轉換（translational）的規則，實體轉換的概率分佈 $\mathcal{H}-\mathcal{T}$ 定義爲 $\mathcal{P}_e \sim \mathcal{N}(\mu_h-\mu_t, \sum_h+\sum_t)$ 。

類似地，TransG使用高斯分佈表示實體，使用混合的高斯分佈表示關係嵌入，其中關係 $r$ 的第 $m$ 個部分的translation向量定義爲 $\mathbf{u}_{r, m} = \mathbf{t} - \mathbf{h} \sim \mathcal{N}(\mathbf{u}_t - \mathbf{u}_h, (\sigma^2_h + \sigma^2_t)\mathbf{E})$ 。

4.1.4 Manifold and Group

這一小節介紹了知識在mainfold space, Lie group和dihedral（二面角） group（羣）的表示。

mainfold（流形）是一個拓撲空間，可以定義成具有鄰域的點的集合，group（羣）是抽象代數中定義的代數結構。

之前的point-wise建模是不適定的代數系統，其中計分方程的數量遠遠超過實體和關係的數量。即使在某些子空間的投影方法中，嵌入也受到嚴格的幾何形式的限制。

爲了處理這一問題，MainfoldE將point-wise嵌入擴展成mainfold-based嵌入。作者引入了兩種mainfold-based嵌入的設置，Sphere（球體）和Hyperplane（超平面）。例如圖 3d所示，對於球體的設置，再生希爾伯特核空間（Reproducing Kernel Hilbert Space）用於表示mainfold函數，例如：

其中 $\phi$ 架構原始的空間映射到了Hilbert空間， $\mathbf{K}$ 是核函數。

另一個超平面的設置的引入通過交叉嵌入（intersected embeddings）增強了模型，例如：

TorusE通過在 $n$ 維的compact Lie group（緊李羣）torus（環面）空間進行嵌入解決了TransE的正則化問題。從向量空間到環面空間的映射定義爲 $\pi: \mathbb{R}^n \rightarrow T^n, x \mapsto [x]$ ，實體和關係定義爲 $[\mathbf{h}], [\mathbf{r}], [\mathbf{t}] \in \mathbb{T}^n$ 。類似於TransE，TorusE也在環面空間使用了關係的轉換，例如 $[\mathbf{h}] + [\mathbf{r}] \approx [\mathbf{t}]$ 。

近期提出的DihEdral模型，提出了保留2維多邊形的二面體對稱羣（dihedral symmetry group）。

4.2 打分函數

打分函數可用於衡量事實的合理性，在基於能量的學習框架中也可認爲是能量函數。

基於能量的學習旨在學習到能量函數 $\mathcal{E}_{\theta}(x)$ ，使得正樣本得分高於負樣本。

本文將打分函數分爲兩種類型：1）基於距離的，如圖 4a所示；2）基於相似度的，如圖 4b所示。

基於距離的打分函數通過計算實體間的距離，來衡量事實的合理性。其中關係的轉換 $\mathbf{h} + \mathbf{r} \approx \mathbf{t}$ 使用的最爲廣泛。

基於語義相似度的打分函數通過語義匹配來衡量事實的合理性，通常採用乘法的形式，例如 $\mathbf{h}^T\mathbf{M}_r \approx \mathbf{t}^T$ ，在表示空間中將頭實體轉換到和尾實體距離較近的地方。

4.2.1 基於距離的打分函數

主要思想是計算有關聯的兩個實體映射到表示空間的歐式距離。

（1）結構的嵌入（SE）使用兩個投影矩陣和 $L_1$ 距離來學習結構的嵌入：

（2）更廣泛使用的是基於轉換（translation）的打分函數，通過將關係看成是從頭實體到尾實體的“翻譯”來學習嵌入。

1）例如TransE方法就是假定 $\mathbf{h} + \mathbf{r}$ 的嵌入應該和 $\mathbf{t}$ 的嵌入接近，然後在 $L_1$ 或 $L_2$ 的約束下定義了打分函數：

2）此後誕生了許多TransE的變形和擴展。例如TransH將實體和關係映射到了超平面中：

3）TransR爲實體和關係引入了分離的投影空間：

4）TransD構建了動態的映射矩陣 $\mathbf{M}_{rh} = \mathbf{r}_p\mathbf{h}^T_p + \mathbf{I}$ 和 $\mathbf{M}_{rt} = \mathbf{r}_p\mathbf{t}^T_p + \mathbf{I}$ ，其中 $\mathbf{h}_p, \mathbf{t}_p, \mathbf{r}_p \in \mathbb{R}^n$ 是投影向量，打分函數定義爲：

5）TransA並沒有使用歐式距離，而是使用馬氏（Mahalanobis）距離來實現更有適應能力的度量學習，使用的打分函數定義如下：

6）之前的方法都是使用了附加的打分函數，TransF放鬆了translation的限制，使用點積的操作，例如 $f_r(h, t) = (\mathbf{h} + \mathbf{r})^T \mathbf{t}$ 。爲了平衡在頭實體和尾實體上的約束，使用了更寬鬆的translation打分函數，定義爲：

7）最近提出的ITransF方法通過使用稀疏的注意力向量，學習到了關係和概念間的關聯，實現了隱藏概念發現和統計強度轉移（statistical strength transferring）。

8）TransAt整合了關係注意力機制和translational embedding。

9）TransMS使用非線性的函數和線性的偏置向量，傳輸了多個方向的語義信息，打分函數定義爲：

10）使用高斯空間的KG2E和使用manifold的ManifoldE也使用了translational基於距離的打分函數。KG2E使用了兩種打分方法：

第一種是非對稱的KL散度：

第二種是對稱的期望似然：

ManifoldE的打分函數定義爲：

其中 $\mathcal{M}$ 是manifold函數， $D_r$ 是特定關係的manifold參數。

4.2.2 語義匹配

另一個方向是計算語義相似性。

（1）SME對實體-關係對 $(h, r)$ 和 $(r, t)$ 進行語義匹配，匹配blocks-linear和bilinear block定義打分函數：

線性匹配block定義爲 $g_{left}(h, t) = M_{l, 1}h^T + M_{l, 2}r^T + b_l^T$ ，雙線性形式爲 $g_{left}(h, t) = (M_{l, 1}h)\circ (M_{l, 2}r) + b_l^T$ 。

（2）通過限制關係矩陣 $M_r$ 爲對角矩陣，以用於多關係的表示學習，DisuMult提出了簡化的雙線性形式：

（3）爲了捕獲到關係數據中豐富的交互信息並且進行有效的計算，HolE引入了嵌入的循環相關（circular correlation of embedding），以學習到組合的表示。通過對循環相關與關係嵌入進行語義匹配，HolE的打分函數可定義爲：

通過定義一個全息合成算子（a perturbed holographic compositional operator） $p(a, b; c) = (c \circ a) * b$ ，其中 $c$ 是一個固定的向量，擴展的全息嵌入模型HolEx內插了HolE和全張量的乘積方法。給定 $l$ 個向量 $c_0, ..., c_{l-1}$ ，HolEx的rank-l的語義匹配度量定義爲：

（4）ANALOGY聚焦於多關係的推斷，建模了關係數據的類比結構，打分函數定義爲：

（5）CrossE引入了crossover interactions，使用了一個交互矩陣 $C\in \mathbb{R}^{n_r\times d}$ 來模擬實體和關係的雙向交互。通過在交互矩陣中查表得到特定關係的交互信息，例如 $c_r = x^T_r C$ 。通過結合交互表示並匹配尾實體的嵌入，打分函數定義如下：

（6）語義匹配規則也可以使用神經網絡進行編碼，在第4.3節中有討論。

（7）第4.1.4節中使用羣表示的兩個方法也遵循語義匹配規則。

TorusE的打分函數定義爲：

通過將2L關係建模成group elements，DihEdral打分函數定義成多部分的和：

其中關係矩陣 $\mathbf{R}$ 定義爲塊對角的形式， $\mathbf{R}^{(l)} \in \mathbb{D}_K$ ，實體嵌入到實值空間中， $\mathbf{h}^{(l)}, \mathbf{t}^{(l)} \in \mathbb{R}^2$ 。

4.3 編碼模型

本節介紹使用特定的模型結構，對實體間的交互信息以及關係進行編碼的模型，包括線性/雙新型模型、基於分解的模型以及神經網絡。

線性模型通過將表示空間中的頭實體投影到和尾實體相近的位置，將關係形式化爲了線性/雙線性的映射。

分解模型只在將關係數據分解成低秩的矩陣，以用於表示學習。

神經網絡使用非線性激活函數編碼關係數據並利用了複雜的神經網絡結構。一些神經網絡模型如圖 5所示。

4.3.1 線性/雙線性模型

這類模型通過應用線性操作，對實體間的交互以及關係信息進行編碼，如下式所示。或者是像式（18）那樣的雙線性轉換操作。

使用線性/雙線性的方法包括SE, SME, DistMult, ComplEx, ANALOGY。

使用L2正則化的TransE，打分函數可以擴展成對一維向量的線性轉換：

爲了解決canonical Polyadia分解中實體向量的獨立嵌入問題，SimplE引入了反向的關係並計算了 $(h, r, t)$ 和 $(t, r^{-1}, h)$ canonical Polyadia分數的平均值，如下式所示，其中 $r^{'}$ 是反向關係的嵌入：

4.3.2 分解模型

分解模型將KRL問題建模成了3個張量的分解。

張量分解的規則可以定義成： $\mathcal{X}_{hrt} \approx \mathbf{h}^T \mathbf{M}_r \mathbf{t}$ ，分解函數遵循語義匹配的模式。

有學者提出RESCAL分解方法，在知識圖譜張量的關係片（slice）上進行分解。對於 $m$ 個關係中的第 $k$ 個關係， $\mathcal{X}$ 的第 $k$ 個slice被分解爲：

作者進一步將其擴展以高效地處理實體的屬性。有人提出了雙線性結構的隱層因素模型（LFM），通過進行分解 $\mathbf{R}_k = \sum^d_{i=1} \alpha^k_i u_i v^T_i$ 實現了對RESCAL的擴展。

通過引入three-way Tucker張量分解，TuckER通過輸出核心的張量b並嵌入實體和關係，學習到了嵌入。其打分函數可定義爲：

其中 $\mathcal{W}\in \mathbb{R}^{d_e \times d_r \times d_e}$ 是Tucker分解的核張量， $\times_n$ 表示張量按照第 $n$ 個模式（mode）相乘。

4.3.3 神經網絡

使用線性/雙線性blocks的編碼模型也可以使用神經網絡進行建模，例如SME。

用於表示學習的神經模型包括多層感知機（MLP）、神經張量網絡（NTN）和神經關聯模型（NAM）。一般來說，這些方法將實體和關係輸入到深層神經網絡中，並計算語義匹配分數。

（1）MLP使用全連接層編碼實體和關係，並使用帶有非線性激活函數的第二層對三元組進行打分：

其中 $\mathbf{W}\in \mathbb{R}^{n\times 3d}$ 是權重矩陣， $[h, r, t]$ 是三個向量的拼接。

（2）NTN將和關係張量相關聯的實體嵌入作爲輸入，輸出的預測打分爲：

其中 $b_r\in \mathbb{R}^k$ 是關係 $r$ 的偏置， $M_{r, 1}, M_{r, 2}$ 是特定關係的權重矩陣。可以視爲是MLPs和雙線性模型的結合。

（3）NAM將隱層編碼和尾實體的嵌入相關聯，並提出了relational-modulated的神經網絡（RMNN）。

4.3.4 CNN

利用CNN來學習深層的表示特徵。

（1）ConvE在嵌入上使用2D的卷積，並使用多層的非線性特徵，通過將頭實體和關係映射成2D的矩陣，來建模實體間和關係間的交互。例如 $\mathbf{M}_h \in \mathbb{R}^{d_w\times d_h}$ 和 $\mathbf{M}_r \in \mathbb{R}^{d_w\times d_h}$ 。打分函數定義爲：

其中 $w$ 是卷積核， $vec$ 是將tensor reshape成向量的向量化操作。

通過堆疊多層並進行非線性的特徵學習，ConvE可以學習到語義級別的信息。

（2）ConvKB使用CNN編碼實體和關係的拼接，並且不需要reshape，如圖 5b所示。其打分函數定義爲：

由卷積生成的一組特徵圖的拼接增強了潛在特徵的學習能力。

（3）和捕獲了局部關係的ConvE相比，ConvKB保持了過渡特性，表現出較好的實驗性能。

（4）HypER使用了超網 $\mathbf{H}$ 用於1D特定關係卷積核的生成，以實現多任務的知識共享，並且同時簡化了2D的ConvE。可以看做是一個張量分解模型，將超網和權重矩陣看做張量。

4.3.5 RNN

之前的基於MLP和基於CNN的模型學習到了三元組級別的表示。爲了捕獲到KG中更長的關係依賴，可以使用基於RNN的方法。

（1）Gradner等人和Neelakantan等人提出基於RNN的模型，用於關係路徑，分別在使用和不使用實體信息時，學習到向量表示。

（2）如圖 5d所示的RSN，設計了循環skip機制，通過區分實體和關係，來增強語義表示學習。

包含實體和關係的關係路徑例如 $(x_1, x_2, ..., x_T)$ ，是隨機遊走產生的，並且元素的位置和互換。然後使用其來計算循環隱層狀態 $\mathbf{h}_t = tanh(\mathbf{W}_h \mathbf{h}_{t-1} + \mathbf{W}_x \mathbf{x}_t + b)$ 。skip操作如下，其中 $\mathbf{S}_1, \mathbf{S}_2$ 是權重矩陣。

4.3.6 Transformers

基於transformer的模型促進了利用上下文本文的表示學習。

爲了利用KG中的上下文信息，CoKE使用transformers來建模邊和路徑的序列。類似地，KG-BERT借鑑了語言模型的預訓練思想並使用Transformer中的雙向編碼表示作爲編碼實體和關係的encoder。

4.3.7 GNN

圖神經網絡（GNN）是使用encoder-decoder框架學習結構的連通性。

（1）R-GCN提出了針對關係的轉換來建模有向的KG，模型的前向傳播定義成：

其中 $x^{(l)}_i\in \mathbb{R}^{d^{(l)}}$ 是第 $l$ 層第 $i$ 個實體的隱層狀態； $N^r_i$ 是和第 $i$ 個實體有關係 $r\in R$ 的鄰居； $W^{(l)}_0$ 是可學習的參數矩陣； $c_{i, r}$ 是歸一化，例如 $c_{i, r} = |N^r_i|$ 。

GCN就是一個圖編碼器。爲了針對特定的任務，編碼器模型仍需要整合到R-GCN框架中。R-GCN平等對待每個實體的鄰居。

（2）SACN引入了帶權重的GCN，如圖 5c所示，定義了有相同關係類型的兩鄰接節點的連接強度，利用節點結構、節點屬性和關係類型，捕獲KG中結構化的信息。

編碼器模塊Conv-TransE採用ConvE模型作爲語義匹配的度量，並且保留了translation性質。

將實體和關係嵌入的卷積輸出和 $C$ 個核對齊爲 $\mathbf{M}(\mathbf{h}, \mathbf{r}) \in \mathbb{R}^{C\times d}$ ，打分函數定義爲：

（3）Nathani等人引入使用多頭注意力的圖注意力網絡，通過輸入實體嵌入和關係嵌入的拼接，來捕獲多跳的鄰域特徵。

4.4 使用輔助信息的嵌入

爲了更有效地利用知識的表示，考慮使用多模態的嵌入作爲外部信息，例如本文描述、類型限制、關係路徑和視覺信息等。

4.4.1 文本描述

KG中有文本描述的實體定義爲 $\mathcal{D} = <w_1, w_2, ..., w_n>$ ，作爲語義信息的補充。

使用文本描述的KRL任務的挑戰是將結構的知識和無結構的文本信息嵌入到同一個空間中。

（1）Wang等人提出了兩個對齊的模型，通過引入實體名字和Wikipedia的錨（anchors），來對齊實體空間和單詞空間。

（2）DKRL是TransE的擴展，該模型通過卷積編碼器直接從實體描述中學習到了表示；

（3）SSP通過將三元組和文本描述投影到一個語義子空間，建模了三元組和文本描述間的強關聯。

當將KGE任務和文本描述相聯繫時，通常會使用到聯合的損失函數。

（1）上述的Wang等人使用的損失爲 $\mathcal{L} = \mathcal{L}_K + \mathcal{L}_T + \mathcal{L}_A$ ，分別表示知識模型的損失、文本模型的損失以及對齊模型的損失。

（2）SSP的損失爲 $\mathcal{L} = \mathcal{L}_{embed} + \mu \mathcal{L}_{topic}$ ，前者是針對嵌入的損失，後者是針對含有文本描述的topic的損失。

4.4.2 類型信息

使用層級的分類或者類型來表示實體，關係也可以有不同的語義類型。

（1）SSE合併了實體的語義類別，在語義空間中平滑地嵌入屬於同一類別的實體。

（2）TKRL提出了實體投影矩陣的類型編碼模型，以捕獲類型層次結構。

（3）KR-EAR模型注意到了一些關係暗示着實體的屬性，該模型將關係類型分類成屬性和關係，並建模實體描述間的關聯。

（4）Zhang等人使用關係簇、關係和子關係的層次關係結構，擴展了現有的嵌入方法。

4.4.3 視覺信息

視覺信息，例如實體的圖片，可以豐富KRL。

IKRL模型包含了跨媒體的基於結構和基於圖片的表示，將圖片編碼到實體空間，並且遵循translation規則。跨媒體的表示需要保證基於結構的和基於圖片的表示在同一個表示空間中。

對於KRL人物，還有許多類型的輔助信息，例如屬性、關係路徑和邏輯規則。在第5.1.2節和第5.1.4節中將會討論KGC任務下的關係路徑和邏輯規則。

4.5 總結

知識表示學習（KRL）是知識圖譜研究領域中一項很重要的研究。本節從4個角度介紹了KRL並列舉了一些最近的方法，總結圖表 2所示。

總之，提出新的KRL模型要回答以下4個問題：

1）應該選擇什麼樣的表示空間；

2）如何衡量特定空間中的三元組的合理性；

3）選擇什麼樣的編碼模型對關係交互進行建模；

4）是否要利用輔助信息。

最流行的表示空間是歐式point-based空間，也就是將實體嵌入到向量空間中，並通過向量、矩陣或張量建模交互信息。

其他的表示空間包括複雜向量空間、高斯分佈、manifold空間和羣（group）。

1）Manifold空間和point-wise歐式空間相比的優點是放鬆了point-wise的嵌入。

2）高斯嵌入可以表達出實體和關係的不確定性，以及多種關係的語義信息。

3）複雜向量空間中的嵌入可以高效地建模不同的關係連接模式，尤其是對稱/反對稱的模式。

表示空間在編碼實體的語義信息和捕獲關係屬性時發揮着重要的作用。當設計一個表示學習模型時，應該選擇和編碼模型在天然上相匹配的表示空間，並平衡表示和計算的複雜度。

使用基於距離度量的打分函數利用了translation規則，語義匹配的打分函數採用了組合運算符。

編碼模型，尤其是神經網絡模型，在建模實體和關係的交互信息時扮演了關鍵的角色。雙線性模型也同樣吸引了很多的注意力，一些張量分解的方法也可分爲此類。

5 知識的獲取

知識的獲取目的是從非結構的文本中構建知識圖譜，補全已有的知識圖譜，並發現和識別實體和關係。

知識獲取的主要任務包括關係抽取、KGC和其他的面向實體獲取的任務，例如實體識別和實體對齊。

大多數方法將KGC和關係抽取問題分開處理。當然這兩個任務也可以整合到一個框架中。Han等人提出了將知識圖譜和文本數據融合的聯合學習框架，解決了KGC問題和從文本中進行關係抽取的問題。

也有其他的和知識獲取相關的工作，例如三元組分類和關係分類。本節從3個角度介紹知識獲取的技術，包括KGC、實體發現和關係抽取。

5.1 知識圖譜的補全（KGC）

KGC就是向知識圖譜中添加新的三元組。典型的子任務包括鏈接預測、實體預測和關係預測。該任務可定義爲：給定一個不完全的知識圖譜 $\mathcal{G} = (\mathcal{E}, \mathcal{R}, \mathcal{F})$ ，KGC的目的是推斷出缺失的三元組 $\mathcal{T} = {\{(h, r, t) | (h, r, t)\notin \mathcal{F} }\}$ 。

對於KGC任務來說初級的研究關注於學習到低維的嵌入以用於三元組的預測，本文將這些方法稱爲基於嵌入的方法。

但是，其中的大多數方法不能捕獲到多步的關係。因此最近的方法開始探究多步的關係路徑，並利用邏輯規則，這類方法分別稱爲關係路徑推斷和基於規則的推理。

三元組分類是和KGC相關的任務，目的是評估一個事實三元組的正確性，本節也會進行額外介紹。

5.1.1 基於嵌入的方法

以實體預測爲例，基於嵌入的排序方法如圖 6a所示，首先基於現存的三元組學習到嵌入向量，然後將頭實體/尾實體替換，來計算所有候選實體的得分，並進行排序得到top $k$ 個實體。

（1）之前提到的KRL方法，例如TransE、TransH、TransR、HolE和R-GCN，以及聯合學習方法，例如DKRL，都可以用於KGC。

（2）PjoE方法並沒有將輸入和候選表示在同一的嵌入空間中，而是提出了組合的嵌入。具體表現爲對輸入三元組已知的部分進行空間投影（例如 $(h, r, ?), (?, r, t)$ ），以及有candidate-entity矩陣 $\mathbf{W}^c\in \mathbb{R}^{s\times d}$ 的候選實體，其中 $s$ 是候選實體的數量。

嵌入映射函數包括一個神經組合層和一個輸出映射層，定義爲： $h(e, r) = g(\mathbf{W}^c\sigma (e\oplus r) + b_p)$ ，其中 $e\oplus r = \mathbf{D}_e e + \mathbf{D}_r r + b_c$ 是對輸入的實體-關係對進行組合的操作。

（3）之前提到的嵌入方法不能區分實體預測和關係預測，ProjE就不支持關係預測。因此，SENN就區分了3個KGC的子任務，具體方法是在同一的神經共享嵌入方法中，引入了帶有自適應的權重的損失函數以學習不同的隱層特徵。

（4）現有的方法高度依賴知識圖譜中現存的連接，並且不能捕獲到連接較少的事實知識或實體的演變。ConMask提出在實體描述上進行關係依賴的內容mask，以選擇出和給定關係相關的片段（snippets），並提出基於CNN的目標融合來補全有不可見實體的知識圖譜。

它只能在查詢關係和實體明確地表示在了文本描述中時，進行預測。

（5）先前的方法是依賴於預先準備的實體對或文本語料的模型。對於醫藥領域，REMEDY提出了一個生成模型，稱爲條件關係變分自編碼器，用於從潛在空間中發現實體對。

5.1.2 關係路徑推理

實體和關係的嵌入學習雖然在一些任務中取得了不錯的效果，但是不能對複雜的關係路徑建模。關係路徑推理利用了圖結構中的路徑信息。

（1）隨機遊走推斷已經被廣泛研究，例如Path-Ranking算法（PRA）在路徑限制額組合下選擇了關係路徑，並且進行了極大似然分類。

（2）爲了改進路徑搜索，Gardner等人通過結合文本內容，在隨機遊走中引入了向量空間相似性的啓發式方法，同時緩解了PRA中的特徵稀疏性問題。

（3）Neelakantan等人提出了RNN模型，通過遞歸地應用組合性來組合關係路徑的內涵，如圖 6b所示。

（4）Chain-of-Reasoning是一種支持multiple reasons的神經注意力機制，它表示了跨所有關係、實體和文本的邏輯組合。

（5）最近，DIVA提出了統一的變分推斷框架，該框架將多條推理視爲兩個子過程：1）路徑的發現，底層路徑推斷的先驗分佈；2）路徑推理，用於鏈接分類的似然。

5.1.3 基於強化學習的路徑發現

深度強化學習（RL）通過將實體對間的路徑發現問題形式化爲序列決策問題，特別是馬爾科夫決策過程（MDP），以實現多跳的推理。

policy-based RL智能體通過知識圖譜環境間的相互作用，找到一個關係步驟，擴展推理路徑，利用policy梯度來訓練RL的智能體。

（1）DeepPath首先將RL應用在了關係路徑學習上，並且提出了新的回報函數以提高準確率、路徑多樣性和路徑高效性。DeepPath通過translational嵌入方法，在連續空間中編碼狀態，並將關係空間作爲行動空間。

（2）類似地，MINERVA通過最大化期望回報，將走到正確答案實體的路徑作爲一個序列優化問題。

（3）Multi-Hop沒有使用二元的回報函數，而是提出了soft回報機制。爲了能夠更有效地搜索路徑，訓練過程中還採用了action dropout來mask一些出邊。

（4）M-Walk應用了RNN控制器來捕獲歷史的軌跡並使用蒙特卡洛樹搜索（MCTS），以實現有效的路徑生成。

（5）CPL通過利用文本語料和當前實體的sentence bag $b_{e_t}$ ，提出了用於從文本中進行路徑發現和事實抽取的協同策略學習方法。

源實體、查詢、當前實體分別表示爲 $e_s, e_q, e_t$ ，query relation定義爲 $r_q$ ，這些方法的MDP環境和policy networks總結在了表 3中，其中MINERVA, M-Walk, CPL使用的是二元的回報。對於policy networks，DeepPath使用了全連接網絡，CPL的抽取器使用了CNN，其餘的均使用了RNN。

5.1.4 基於規則的推理

爲了更好地使用知識的天然符號特性，KGC的另一個研究方向是邏輯規則的學習。

（1）規則的定義

一個規則由head和body組成，形式化爲 $head\leftarrow body$ 。其中head是一個原子（atom），例如有着可變subject和/或objects的事實；body可以是原子的集合。例如給定關係 $sonOf, hasChild, gender$ ，以及實體 $X, Y$ ，有一個和邏輯編程相反的規則：

可以使用規則挖掘工具（例如 AMIE）來抽取出邏輯規則。最近的RLvLR提出了可擴展的規則挖掘方法，使用了高效的規則搜索和剪枝方法，並將抽取出的規則用於鏈接預測。

更多的研究關注於將邏輯規則整合到嵌入中，以提高模型的推理能力，例如使用聯合學習和迭代訓練用於合併一階邏輯規則。

（1）KALE提出了統一的聯合模型，定義了兼容三元組和邏輯規則嵌入的t-範數（t-norm）模糊邏輯連接詞。定義了邏輯合取、析取和否定三種組合，構成complex formula的真值。圖 7a展示了簡單的一階Horn clause推斷。

（2）RUGE提出迭代的模型，使用soft rules從無標註的三元組進行soft的標籤預測，從有標籤的三元組進行embedding rectification。

（3）IterE提出遞歸的訓練策略，有3個部分：嵌入學習；axiom induction；axiom injection。

神經模型和符號模型的結合同樣吸引了研究者的注意力，其可使用端到端的方式實現基於規則的推理。

（1）Neural Theorem Provers (NTP) 學習到了用於多條推理的邏輯規則，利用了radial basis function kernel在向量空間上進行可微計算。

（2）NeuralLP實現了在歸納式的邏輯編程（inductive logic programming）中使用基於梯度的優化，其中的神經控制系統使用了集成注意力機制和輔助記憶。

（3）pLogicNet提出了概率邏輯神經網絡，如圖 7b所示，銅鼓結合Markov邏輯網絡和KRL方法的優點，利用了一階邏輯並學習到了有效的嵌入，同時處理了邏輯規則的不確定性。

（4）ExpressGNN[4]對graph networks和嵌入進行微調，對pLogicNet進行了泛化，並實現了更有效的邏輯推理。

參考文獻

[1] Q. Wang, Z. Mao, B. Wang, and L. Guo, “Knowledge graph embedding: A survey of approaches and applications,” IEEE TKDE, vol. 29, no. 12, pp. 2724–2743, 2017.

[2] Y. Lin, X. Han, R. Xie, Z. Liu, and M. Sun, “Knowledge representation learning: A quantitative review,” arXiv preprint arXiv:1812.10901, 2018.

[3] R. Socher, D. Chen, C. D. Manning, and A. Ng, “Reasoning with neural tensor networks for knowledge base completion,” in NIPS, 2013, pp. 926–934.

[4] M. Qu and J. Tang, “Probabilistic logic neural networks for reasoning,” in NeurIPS, 2019, pp. 7710–7720.

【論文翻譯 AAAI 2020 | 知識圖譜綜述】A Survey on Knowledge Graphs: Representation, Acquisition and Applications

文章目錄