論文筆記整理:周虹廷,浙江大學研究生。研究方向:知識圖譜,圖表示學習等。
論文鏈接:
http://web.cs.ucla.edu/~yzsun/papers/2019_KDD_JOIE.pdf
本文是發表在KDD 2019上的關於知識圖譜表示學習的論文。現有知識圖譜表示模型通常只關注在單一視圖,即實例層面或是本體層面,本文認爲兩個層面的信息存在相互增強促進的作用,因此一種新穎的雙視圖(聯合)知識圖譜表示模型被提出來生成更好的節點和關係的表示。在三元組補全任務和實體分類任務上,本文的模型結果明顯優於已存在的模型。
1、Motivation
現有的知識圖譜可被分別兩類:(1)實例視圖的知識圖譜,(2)本體視圖的知識圖譜,並且在兩個視圖間存在跨視圖的鏈接,如圖1所示。
現有的模型通常只關注於單一層面的建模,而從上述的兩個層面共同學習表示毫無疑問會提供更全面的視角。一方面,實例表示爲其相應的本體表示提供詳細而豐富的信息。另一方面,概念表示提供了其實例的高級總結,這對於處理觀察不充分的實體時將提供極大的幫助。
因此本文提出通過兩個視圖分別的三元組以及跨視圖鏈接聯合建模,有效地將知識圖譜兩個視圖上的表示學習技術有效地結合在一起。
2、Model
本文提出的JOIE模型包含兩個模型組件,可從兩個視圖中學習嵌入:跨視圖關聯模型通過捕獲來自相應概念實體的實例來實現兩個視圖之間的連接和信息流,而視圖內模型則關注知識庫的每個視圖上的實體/概念以及關係/元關係。這些模型組件用於學習KB的不同方面。我們首先討論每個視圖的跨視圖關聯模型和視圖內模型,然後將它們組合爲JOIE的各類變體模型。
跨視圖關聯模型
跨視圖關聯模型的目標是基於KB中的跨視圖鏈接,捕獲實體嵌入空間與概念嵌入空間之間的關聯,這是本文的主要貢獻。本文基於兩種不同的假設提出了兩種對此類關聯進行建模的技術:跨視圖分組(CG)和跨視圖轉換(CT)。
(a) 跨視圖分組(CG)
假設兩個視圖的知識圖譜可以在同一個向量空間中被表示,並且讓實例視圖中所有的實體e靠近本體視圖中其相關聯(鏈接)的概念c。該方法要求兩個視圖中節點表示的緯度相同, loss函數如下:
(b) 跨視圖轉換(CT)
不同於跨試圖分組方法,跨視圖轉換方法試圖在實體嵌入空間和概念空間之間轉換信息,並且不要求兩個視圖中節點的表示具有相同的緯度。即在轉換之後,實例將被映射爲本體視圖空間中的表示,該表示應與其相應概念的表示接近,loss函數如下:
視圖內模型
視圖內模型的目的是在兩個向量空間中分別保留知識圖譜的每個視圖中的原始結構信息。由於實例視圖中的關係和本體視圖中的元關係的語義含義不同,因此爲每個視圖提供單獨的處理,而不是將它們組合爲單個表示模式將更爲合理,從而提高下游任務的性能。
我們採用了三種已有的對知識圖譜進行表示的方法,即TransE,DistMult,HolE。
由於觀察到在本體視圖中還存在層級結構因此本文進一步提出本體的層次感知內部視圖模型。與跨視圖轉換相似,在給定概念對(c_l,c_h)的情況下,通過以下方式將此類層次結構建模爲粗略概念和關聯的細微概念之間的非線性轉換,loss函數更新爲:
雙視圖知識庫聯合訓練
兩個視圖的loss聯合函數如下,ω>0作爲兩部分的平衡係數:
本文並沒有直接訓練J,而是在每個epoch的連續兩步中的分別計算 J_intra和 J_cross,並利用ω區分視圖內和交叉視圖損失的學習率。
3、Experiment
1. 數據集
由於現存的知識圖譜數據集僅覆蓋了單視圖,因此作者分別從YAGO和DBpedia中抽取數據,並分別提出了兩個新的數據集YAGO26K- 906 and DB111K-174,具體統計信息如下
2. 實驗結果
本文基於兩組任務來評估JOIE模型:實例視圖和本體視圖KG上的三元組補全任務,以及橋接知識庫的兩個視圖的實體分類任務。結果顯示,在兩個任務上,由於雙視圖信息的相互補充,得到了更好的表示結果,從而有效提升了結果表現。
3.Case Study
本文還提供了有關本體填充和長尾關係分類的案例研究如下:
4、結論
本文通過提出一種新穎的模型JOIE共同表示現實世界的實體和本體論概念。通過描述了一個雙視圖的知識庫,在向量空間中共同捕獲了每個視圖的結構化知識,以及將兩個視圖聯繫起來的跨視圖鏈接。基於KG完成和實體分類任務的大量實驗表明,我們的模型JOIE可以成功地從KB的兩個視圖中捕獲潛在特徵,並且勝過各種最新的基準
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。