[論文學習]TDN: An Integrated Representation Learning Model of Knowledge Graphs


文章下載鏈接:https://github.com/ciecus/papers/blob/master/%E7%9F%A5%E8%AF%86%E5%92%8C%E8%AF%AD%E4%B9%89%E7%BB%93%E5%90%882019%E5%B9%B4%E6%96%B0%E6%96%87%E7%AB%A0/TDN-%20An%20Integrated%20Representation%20Learning%20Model%20of%20Knowledge%20Graphs.pdf
文章代碼鏈接:暫無

文章主要內容

摘要

知識圖譜在人工智能領域起到了非常重要的作用。知識圖譜致力於將實體和關係投影到連續的低維空間中。這種表示學習的方法可以通過預測潛在的三元組(head,relation,tail)用來完善知識圖。在現有的方法種,人們主要集中於利用已有的三元組知識,但是忽略了融合文本信息和知識網的拓撲結構。這些問題導致了歧義問題。爲了解決這個問題,並且構造一個更加準確的知識網,我們提出了一種新的表示學習模型,TDN模型,這個模型融合了三元組信息,文本描述信息,以及知識圖的網絡結構。本文將詳細介紹TDN的框架結構及TDN因子表示的方法。爲了驗證提出來的模型的有效性,我們在實際數據的鏈接預測任務驗證我們的模型,實驗結果驗證了我們模型的有效性。
關鍵詞:人工智能;embedding,知識圖,知識表示

前言

知識圖在人工智能領域起到了非常重要的作用,比如智能問答,網絡搜索等。知識圖是一個包含了大連三元組(head,relation,tail)的語義網絡,其中head和tal是網絡中的實體(entity)。知識圖一個非常重要的任務就是利用已有的知識去預測潛在的事實去完善我們的知識圖。知識圖的完善近似於社交網絡分析中的鏈接預測,但是它更具難度。因爲知識圖包含了很多象徵意義的變形以及邏輯信息,鏈接預測需要不能能考慮到點的存在性還需要考慮點的語義信息和類型。因此,傳統的鏈接預測方法並不適用於知識圖的完善,爲了解決這個問題,基於翻譯(Trans)方法的知識表示的方法被提出,此類方法通過將知識圖中的實體和關係投影到連續的低維空間中,去構建知識圖。在本文中我們把這種機制叫做vector embedding(因子表示方法)。現有的知識表示方法僅僅利用三元組星系,忽略了關於實體的語義信息以及網絡的拓撲結構,這些都會導致知識網的歧義問題。並且,大多數知識圖都有一些關於實體的描述信息,並且這些描述信息包含重要的上下文信心。上下文信息的缺失導致不能夠細粒度的分析途中的關係,以至於不能夠正確的利用知識圖進行推理,如圖一(a)所示。並且,對於知識圖來說,所有的三元組連寫起來構建了一個有特定拓撲結構的網絡,也就是說,任意的三元組都不是孤立的,而是手其它三元組的影響。因此,每一個三元組都應該有他們對網絡拓撲結構自己的貢獻。但是現有的模型忽略了這些信息(如圖1(b)所示)。因此,這些信息的丟失都會造成知識圖完善的不準確性。

圖1(a)展示了維多利亞是加拿大和seychelles的首都,如果基於傳統的翻譯模型,就會輸出一樣的實體,但是如果結合語義分析,應該輸出不一樣的實體。圖1(b)展示了每一個三元組都在網絡拓撲結構中貢獻了自己的力量。

爲了解決這些問題,本研究提出了一種新的表示模型TDN模型,去綜合解決三元組信息(T),實體描述信息(D)和網路結構信息(N)。這些特徵都被融合進統一的特徵空間,知識圖可以在這個空間中沒有歧義的進行計算和分析。本文的主要貢獻如下:

  • 提出了一個融合的知識表示模型,三元組信息,實體描述信息和網絡結構都被考慮起來,並且能夠消除知識圖中的歧義(KG can be represented with less ambiguity)。
  • 通過在這種方法表示實體和關係,知識圖能夠更準確的完善。

本文的其餘部分按照下面的組織架構安排:我們首先介紹了相關工作,然後對我們提出的模型進行描述,接着我們提出了我們完整的TDN模型構建方法。此外,爲了驗證我們模型的有效性,我們設計了實驗,最後我們總結了我們的工作,並且提出了接下來的工作。

相關工作

當前的知識表示學習可以被分成兩種類別,基於三元組的翻譯表示模型和基於額外信息的翻譯模型(the extra-information-based Trans embedding)。前者僅僅使用了三元組的象徵表示,後者採用額外的信息比如文本信息圖像信息去表示我們的實體。對於一個經典的翻譯表示模型來說,TransE將實體和關係映射到一個低維特徵空間,然後每一組三元組都通過損失函數,進行表示。E(h.r,t)=h+rtE(h.r,t)=||h+r-t||其中h,r,t分別被成爲頭實體,關係和尾實體。TransE模型非常的簡單有效,但是 因爲把實體和關係映射到統一的向量空間,它表示多元三元組關係的能力(1to N,N to 1,N to N)的能力就比較侷限,爲了客服這個問題,TransH被提出了,它通過把向量投影到一個超平面,完成特定關係的投影。TransH模型可以讓同樣的實體在不同的關係超平面中扮演不同的決策,從而實現多元關係的問題。此外,TransR模型通過翻譯矩陣(transformation matrix)去區分實體空間,關係空間,並且將這些實體關係對,映射到不同的關係空間中,TransR的損失函數被定義爲:
E(h,r,t)=hMr+rtMrE(h,r,t)=||hM_r+r-tM_r||
通過翻譯矩陣MrM_r,TransR可以提供多樣的翻譯關係此外TransR的拓展TransD模型通過使用不同的翻譯矩陣,在知識圖中實現了更加多元的表示。

大多現存的基於三元組的翻譯模型只考慮了三元組信息,但是忽略了文本描述中的語義信息。爲了彌補這個缺陷,許多基於額外信息的Trans模型被提出,將語義信息融合到實體的向量表示中。通過文本表示的詭異秒,基於描述的知識表示(DKRL)將每一個實體描述使用CNN將文本信息投影到一個文本空間空間中,然後將基於三元組的TransE表示和基於文本的表示進行拼接,實驗證明了DKRL可以顯著提升知識圖譜完成的有效性。此外,基於Bi-LSTM的自編嗎器,A-LSTM被提出去表示實體的描述,IKRL在知識圖中加入圖片信息提升知識完善的有效性,近期也有一些問題提出利用結構信息去改善embedding的效果,但是他們通常只利用本地的結構信息,沒有考慮不同的位置的影響,同時也沒有用上文本描述信息。

基於TDN的表示的框架結構

TDN提供了一個混合框架結構可以在圖中同時融合文本描述信息和結構信息。通過TDN,實體的embedding表示是通過下述方法定義的:
e=esedege = e_s\oplus e_d \oplus e_g,其中es,ed,ege_s,e_d,e_g分別是算遠足,文本,和網絡向量,\oplus代表拼接(concatentation)。

本文中,embedding的方法嚴格遵循上述公式的叫做完全TDN表示。此外TDN模型有一些變種方法,當ede_d爲= 或者ege_g爲0 的時候,我們稱之爲不完全TDN模型。
在這裏插入圖片描述
圖二展示TDN的網絡架構,es,ed,ege_s,e_d,e_g模型分別按照下面方法計算。首先,我們採用經典的Trans模型,比如TransE或者TransR模型,將每一個三元組投影或者物品的三元組表示ese_s。其次,我們開始考慮文本的描述信息,我們採用DKRL中的emebedding方法,用CNN網絡作爲文本編碼器,通過上述方法文本描述的語義信息就可以表述成向量ede_d,第三,網絡結構通過圖的表示學習的方法,表示成e_g,所以網絡的拓撲結構就被保存下來。
最後我們在統一的特徵空間中融合這個知識圖,所以這個知識圖的信息就會減少很多歧義。

方法

正如上述討論,TDN模型包括了三元組,文本,網絡結構的信息,因爲我們直接採用了經典的Trans模型去完成三元組的表示部分,所以我們這裏只詳細介紹如何對文本信息和網絡信息進行表示。

文本信息的表示

在這個部分,我們分別採用兩種模型去完成文本信息的表示。

第一種使用的方法叫做CBOW。通過這種方法,實體的表述文本可以被表示爲一個詞的序列,xi:n=x1,x2,,xnx_{i:n} = x_1,x_2,\dots,x_n,其中xix_i是第i個詞的入口。我們採用這種詞的embedding的求和平均的方法獲得實體描述的embedding。
ed=1ni=1nxie_d = \frac{1}{n}\sum_{i=1}^nx_i
cbow模型能夠提取文本中的關鍵語義信息。
此外我們採用cnn的詞表示方法提取文本的向量表示,圖三展示了這個過程,
在這裏插入圖片描述
採用和DKRL一樣的預處理過程,我們把詞的表示作爲輸入,模型採用了兩個卷積層,然後他們的輸出通過最大池化和平均池化。最後模型能夠產生一個固定長度的向量表示。

網絡結構的embedding方法

傳統的Trans模型只關注三元組本地的信息,從而忽略了不同位置的拓撲結構。在本文中,我們考慮到知識圖中不同的拓撲結構中的節點會相互影響,並且能夠給實體表示帶來更多的信息,因此我們採用網絡表示的方法完成這個部分。

網絡表示方法通過把節點投影到低維的向量空間中,並且採用向量去表示圖的拓撲結構。通過這個想法,知識圖中的三元組信息可以被認爲是網絡中中的鄰居。因此網絡表示就可以通過這樣的方法學習。這個過程的理論基礎是在網絡拓撲結構中相似的節點向量中間中也應該相似。

本文采用的DeepWalk是一種經典的網絡表示模型,DeepWalk給語言模型和非監督的圖模型中帶來了許多提升。它通過堆積所走在圖中生成序列,然後獲得詞的向量表示,圖4展現了DeepWalk的學習過程。
在這裏插入圖片描述
通過引進映射函數 ϕ:{v}RV×d\phi:\{v\}\to R^{|V| \times d},其中VVdd分別表示節點的數量和向量的維度。DeepWalk給每一個節點都生成了一個向量國恥,這個過程通過極大似然函數的優化過程來進行。
Pr(viϕ(v1),ϕ(v2),,ϕ(vi1))Pr(v_i | \phi (v_1),\phi (v_2),\dots,\phi(v_{i-1}))
但是隨着路徑長度的增長,這個條件似然概率就非常難計算,爲了簡化計算過程,DeepWalk採用一個詞於預測上下文,而不是用上下文預測一個缺失值。在這種情況下,這個問題就轉換成了下面的優化問題:
argminϕlogPr({viw,,vi+w}viϕ(vi))\arg \min_{\phi} - \log Pr(\{v_{i-w},\dots,v_{i+w}\}\\ v_i|\phi (v_i))

模型訓練過程

定義

給定一個知識圖,使用T={(h,r,t)h,tE,rR}T=\{(h,r,t)|h,t \in E,r\in R\}代表知識圖中的三元組信息,其中EE代表實體集合,RR代表關係集合,E和R可以構建成一個圖G=(E,R)G = (E,R)。TDN模型可以被表述成參數集合θ={X,E,R,N}\theta = \{X,E,R,N\},其中E,R分表代表了E,R的三元組因子表示,X代表實體的的文本表述,N代表了圖的網絡結構表示。

訓練

根據 e=esedege = e_s\oplus e_d \oplus e_g,我們結合了三元組信息,文本信息,網絡信息作爲最後訓練模型的實體表述,最後的實體表示的優化過程可以通過下述基於邊緣的孫書函數作爲優化目標進行優化:
£=(h,r,t)T(h^,r^,t^)T^max(γ+f(h,r,t))f(h^,r^,t^),0)\pounds = \sum_{(h,r,t)\in T} \sum_{(\hat{h},\hat{r},\hat{t}) \in \hat{T}} max ( \gamma + f(h,r,t))-f(\hat{h},\hat{r},\hat{t}),0),其中γ>0\gamma > 0是一個超參數。T是正確三元組的集合,T^\hat{T}是不正確的三元組的集合,
f(h,r,t)=h+rtf(h,r,t)= ||h+r-t||,不正確的集合是隨機換一個三元組中的關係得來。此外需要注意的是,對於一個實體來說,不管它是頭實體還是尾實體,他們的向量表示都是一樣的。

過程

TDN的訓練過程首先需要從三個方面初始化。首先對於三元組信息E和R可以通過基於翻譯的方法比如TransE的方法進行初始化,對於文本向量,X可以通過CBOW或者CNN編碼器的方法對實體的文本描述信息進行表示。對於網絡表示來說,N可以通過對於整個知識圖作爲輸入的方法獲得。隨後,這些表示都通過e=esedege = e_s\oplus e_d \oplus e_g進行融合。

初始化之後,優化方法就通過SGD進行反向傳播進行,反向傳播會被鎖住當都是全0的padding的時候,或者現有高的特徵值沒有在前向傳播的時候考慮到。最後採用argminϕlogPr({viw,,vi+w}viϕ(vi))\arg \min_{\phi} - \log Pr(\{v_{i-w},\dots,v_{i+w}\}\\ v_i|\phi (v_i))對模型進行優化。

實驗

數據集

在這個研究中,我們從真實的大規模數據集KG FreeBase中提取一個數據集,FB15k作爲我們的實驗數據,實體的描述信息在論文DKRL中可以獲得。在這個數據集中,描述詞的平均長度爲69,最長的描述長度爲343。訓練集中有472,860組三元祖,1341種關係類型,驗證集有48,991種三元組,測試集有57803組三元組。
表1列出了數據集的統計信息:
在這裏插入圖片描述

實驗的參數設置

我們對於完整的TDN做了4組實驗,不完成的TDN模型變種做了6組實驗,

  • TDNWE:完整的TDN模型,融合了TransE的三元組表示,CBOW的文本表示和DeepWalk的網絡節點表示
  • TDNCE:完成的TDN模型,融合了TransE的三元組表示,CNN編碼器的文本表示和DeepWalk的網絡節點表示
  • TDNW(TE+CBOW):融合了TransE的三元組表示,CBOW的文本表示
  • TDNC(TE+CNN): 融合了TransE的三元組表示,CNN編碼器的文本表示
  • TDN(TE+NET):融合了TransE的三元組表示和DeepWalk的網絡節點表示
  • TDNWR:完整的TDN模型,融合了TransR的三元組表示,CBOW的文本表示和DeepWalk的網絡節點表示
  • TDNCR:完成的TDN模型,融合了TransR的三元組表示,CNN編碼器的文本表示和DeepWalk的網絡節點表示
  • TDNW(TR+CBOW):融合了TransR的三元組表示,CBOW的文本表示
  • TDNC(TR+CNN): 融合了TransR的三元組表示,CNN編碼器的文本表示
  • TDN(TR+NET):融合了TransR的三元組表示和DeepWalk的網絡節點表示

我們完成了兩組現有模型作爲baseline進行對比,第一組包括兩種進店的trasn模型,TransE和TransR,第二種擴包DKRL+TransE和A-LSTM模型,將文本描述作爲額外信息進行embedding。

我們將這些三元組的維度信息分別設置爲ntrn_{tr} 50,100,200,300,文本向量的維度分別爲ntxn_{tx} 50,100,200,網絡向量的維度ntnn_{tn}分別爲50,100,200.仿照基於trans的模型,我們將學習率 λ\lambda設置爲0.0005,0.001,0.002,邊緣margin γ\gamma設置爲1.0,2.0.CNN編碼器的參數全都按照DKRL裏面的參數進行。

在我們的實驗中,TDN的最優實驗設置爲λ=0.001,γ=1.0,ntr=100,ntx=100,ntn=100\lambda=0.001,\gamma=1.0,n_{tr}=100,n_{tx}=100,n_{tn}=100.

鏈接預測

鏈接預測是知識圖完善任務中的一個子任務。在測試階段我們使用kg中的實體去代替測試集中的實體,並且對於這些實體的得分f(h,r,t)=h+rtf(h,r,t)=||h+r-t||進行降序排序。根據基於trans 的模型,兩個驗證方法用來評估實驗的結果。
1)Meanrank:正確的三元組實體在所有三元組實體裏面的平均排序
2)hits@10:排序前十的三元組裏面的正確的三元組的概率。
【這裏有一段corrupted triple的定義,我沒看懂所以沒有翻譯,】
實驗結果如下表所示:
在這裏插入圖片描述

實驗結果分析

實驗結果如商標所示,我們採用加粗的方法表明了每列排名最高的兩個數。從結果中我們可以觀察到,(1)TDN模型獲得的節點表示顯著優於TransE, TransR, DKRL+TransE and A-LSTM 。也就是說文本描述,網絡結構信息都可以顯著的提升鏈接預測的效果。(2)在所有嘗試的TDN的方法中,完整的TDN黨法優於其它變種模型,也就是說不管是文本信息還是結構信息都應該在知識圖中被構建出來。(3)不完整的TDN模型中的TransE+net模型中構建的甚至優於了部分完整模型,也就是說,我們需要在學習embedding的時候,對於網絡結構信息更加關注。

結論

本文中我們提出了一個TDN模型作爲知識圖的表示,模型融合了三元組信息,節點表述信息,網絡結構信息,通過將這些信息同時融入低維表示空間,TDM模型實現了更正確的知識圖補全功能。我們給出了基於TDN模型的網絡結構定義,並且探究了不同的方法進行文本表示和網絡結構表示。在我們的實驗設計中,我們採用鏈接預測對我們的結果進行評估,實驗結果證明我們優於其它模型。

並且一系列的實驗證明,我們需要在鏈接預測任務中更加關注網絡結構信息,在後期我們將探究更多網絡表示的方法去驗證這個假設。

讀後感

本文代碼量很少,幾乎都是現成模型的拼接,我也不知道爲什麼能發表,但是文章讀起來非常流暢,表述非常清晰,對於符號的定義寫的也比較好。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章