論文淺嘗 | 基於圖卷積網絡的跨語言圖譜實體對齊

論文筆記整理:譚亦鳴,東南大學博士生,研究興趣:知識圖譜問答



本文提出了一種基於圖卷積網絡的跨語言實體對齊方法,通過設計一種屬性 embedding 用於 GCN 的訓練,發現GCN能同時學習到特徵 embedding 和屬性 embedding 的信息。實驗表明該方法是目前性能最好的的 GCN 對齊模型。

 

來源:IJCAI 2019

鏈接:

https://www.ijcai.org/proceedings/2019/0929.pdf

動機

在近期的研究工作中, GCN被用來處理一些基於圖的學習問題,也有研究者提出基於該模型的跨語言知識圖譜實體對齊工作。但這些工作並沒有有效的利用圖譜的屬性信息,且對整體模型帶來了負面的影響,這主要是因爲對於同一實體,在不同語言上,它的屬性存在較大的差異。雖然也有研究者提出異構圖注意力網絡,提供了節點級與語義級的注意力機制。但這個方法依然沒有考慮不同屬性帶來的影響。

基於上述分析,作者提出利用GCN的聚合能力將屬性embedding加入跨語言知識圖譜對齊中。

方法

             

圖1 描述了本文提出模型的主要框架和流程,待對齊的知識圖譜主要提供了兩個角度的信息,其一是圖譜本身的圖結構信息,這個部分被直接輸入到GCN中, GCN包含多層網絡,其卷積運算過程如以下公式:

             

其中,P是一個n×n鄰接矩陣,n表示節點的數量, ,其中 I 是單位陣, 的 diagonal node degree 矩陣,H(l) 表示頂點特徵矩陣,其作爲第l層網絡的輸入。

其二,爲了提高不同語言實體信息embed到統一的向量空間中的精準性,作者設計了增強的屬性embedding方法,用於減少不同語言對等實體之間的差異性。

 

該方法包含以下幾個部分:

1. 屬性選擇

首先對於實體屬性出現的數量做降序排列(出現頻率越高的屬性對於實體的描述越準確),然後將排序後的不同語言的知識圖譜屬性進行相交。最後,取Top-k的相交屬性用於embedding。

2. 屬性加權

爲了區分屬性的重要性程度,通過以下公式對選定屬性進行加權:

             

其中,wβ表示屬性β的權重,nβ和n’β表示不同圖譜中屬性的數量,α表示權重係數,用於在對齊中強化屬性所佔的重要性。

實驗

實驗數據

實驗使用的數據集爲DBP15K,由DBpedia中生成,實驗的語言對爲中英雙語,包含中文->英文方向,及英文->中文方向的對齊。

 

實驗結果

 

評價指標使用Hits@1,Hits@10,及Hits@50進行對比,結果如下表:

            

可以看到從統計顯著性上取得了的提升,但是從實際匹配準確性上看,距離可視作工具用於雙語知識庫問答等任務還存在明顯不足。

 


 

OpenKG

開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文,進入 OpenKG 博客。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章