論文筆記整理:譚亦鳴,東南大學博士生,研究興趣:知識圖譜問答
本文提出了一種基於圖卷積網絡的跨語言實體對齊方法,通過設計一種屬性 embedding 用於 GCN 的訓練,發現GCN能同時學習到特徵 embedding 和屬性 embedding 的信息。實驗表明該方法是目前性能最好的的 GCN 對齊模型。
來源:IJCAI 2019
鏈接:
https://www.ijcai.org/proceedings/2019/0929.pdf
動機
在近期的研究工作中, GCN被用來處理一些基於圖的學習問題,也有研究者提出基於該模型的跨語言知識圖譜實體對齊工作。但這些工作並沒有有效的利用圖譜的屬性信息,且對整體模型帶來了負面的影響,這主要是因爲對於同一實體,在不同語言上,它的屬性存在較大的差異。雖然也有研究者提出異構圖注意力網絡,提供了節點級與語義級的注意力機制。但這個方法依然沒有考慮不同屬性帶來的影響。
基於上述分析,作者提出利用GCN的聚合能力將屬性embedding加入跨語言知識圖譜對齊中。
方法
圖1 描述了本文提出模型的主要框架和流程,待對齊的知識圖譜主要提供了兩個角度的信息,其一是圖譜本身的圖結構信息,這個部分被直接輸入到GCN中, GCN包含多層網絡,其卷積運算過程如以下公式:
其中,P是一個n×n鄰接矩陣,n表示節點的數量, ,其中 I 是單位陣,是 的 diagonal node degree 矩陣,H(l) 表示頂點特徵矩陣,其作爲第l層網絡的輸入。
其二,爲了提高不同語言實體信息embed到統一的向量空間中的精準性,作者設計了增強的屬性embedding方法,用於減少不同語言對等實體之間的差異性。
該方法包含以下幾個部分:
1. 屬性選擇
首先對於實體屬性出現的數量做降序排列(出現頻率越高的屬性對於實體的描述越準確),然後將排序後的不同語言的知識圖譜屬性進行相交。最後,取Top-k的相交屬性用於embedding。
2. 屬性加權
爲了區分屬性的重要性程度,通過以下公式對選定屬性進行加權:
其中,wβ表示屬性β的權重,nβ和n’β表示不同圖譜中屬性的數量,α表示權重係數,用於在對齊中強化屬性所佔的重要性。
實驗
實驗數據
實驗使用的數據集爲DBP15K,由DBpedia中生成,實驗的語言對爲中英雙語,包含中文->英文方向,及英文->中文方向的對齊。
實驗結果
評價指標使用Hits@1,Hits@10,及Hits@50進行對比,結果如下表:
可以看到從統計顯著性上取得了的提升,但是從實際匹配準確性上看,距離可視作工具用於雙語知識庫問答等任務還存在明顯不足。
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。