論文淺嘗 | Iterative Cross-Lingual Entity Alignment Based on TransC

論文筆記整理:譚亦鳴,東南大學博士。


來源:IEICE TRANSACTIONS on Information and Systems, 2020, 103(5): 1002-1005.

鏈接:

https://www.jstage.jst.go.jp/article/transinf/E103.D/5/E103.D_2019DAL0001/_pdf

介紹

這篇論文關注的任務是跨語言實體對齊,目標是將不同語言知識庫中具有相同語義的實體相匹配。作者認爲不同語言的知識圖譜可能具備相同的本體劃分,這一點對於實體對齊來說可能起到作用。(在作者的瞭解範圍裏,目前還沒有實體對齊工作是基於本體信息的,但是多語言知識圖譜如DBpedia,是先構建了統一的本體劃分,然後再遵循這一劃分構建各個語言版本的知識圖譜,如下圖)

爲了驗證這一猜測,本文提出了一個基於TransC的embedding模型:首先由TransC以及參數共享模型將圖譜中所有的實體和關係映射到一個共享的低維語義空間;之後模型迭代通過reinitalization以及soft alignment(軟對齊)策略提升實體對齊的性能。

實驗結果顯示,相對於benchmark算法,本文方法可以有效的利用本體信息,從而得到更好的結果。

P.S. 需要說明的是,本文使用到的本體間關係只有“SubclassOf”這一個。

模型

模型整體可以分爲三個部分:

a. Knowledge embedding part

首先是對實例的embedding:TransE被用於對三元組中的實體和關係進行embedding,投影到一個低維空間中

之後是對實體的InstanceOf三元組的embedding:這種三元組的構成爲(實體,InstanceOf,實體對應的本體類型),TransC將每個類型對應的向量建模爲一個球型空間s(p,m),其中p表示球心,m表示球的半徑,對於一個InstanceOf三元組,其對應的energy function爲:

其中ee的向量表示。

整體三元組的得分計算爲:

最後是SubClassOf triple embedding:這個部分主要是反應不同類型的本體之間的相對位置,因此計算的方式通過球形空間的相對位置來衡量,即:

b. Joint embedding part

本文使用的參數共享模型基於MTransE(IJCAI 2017)構成,其目的是基於ILLs(DBpedia提供的已知多語言實體對齊),將已知對齊實體embedding,在訓練過程中強制對等。

c. Alignment part

爲了彌補標註數據(已知對齊)的不足,這一步的普遍方案是使用訓練得到的模型對未標註數據進行對齊標註,然後使用新的標註數據作爲訓練集迭代的更新模型,但是這種過程必然引入錯誤對齊。作者提出了兩個策略處理這個問題:

1)Reinitialization

在每輪迭代中,首先訓練multilingual knowledge embedding直至驗證集上的效果邊差,而後對於那些embedding相似性高於預設閾值的實體對,將具有最高相似性的樣本選入ILLs,構成新的標註集。之後對knowledge做重新初始化,並且開始新的迭代訓練。

2)Soft Alignment

3)對於更新的標註集中的實體對,這裏參照Soft Alignmen(IJCAI 2017)定義的得分函數:

對於不同語言的KG1和KG2,更新的標註集不會被用於參數共享模型,而是僅僅用於對齊訓練

實驗

實驗數據

作者基於DBpedia構建了一個多語言知識圖譜,包含英-法以及英-德兩種語言對。

其構建過程爲:首先隨機的從ILLs中抽取1000個實體對,而後利用這些實體對在ILLs中找到其他包含對齊實體的三元組(但是不在1000樣本中,例如A-B對齊,藉助ILLs找到(A, r1, C),(B, r2, D),其中,C和D在ILLs中是對齊實體,這些將被用於測試模型的對齊性能)

數據集的統計信息如下表所示

實驗結果

跨語言實體對齊實驗結果如下表,其中Ps-TransC(RE+SA)是本文方法,其他Ps爲本文方法的變體,作爲對照組,參考的其他方法爲LM(Linear Mapping)以及MTransE

 


 

OpenKG

開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文,進入 OpenKG 博客。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章