論文淺嘗 | Iterative Cross-Lingual Entity Alignment Based on TransC

原創

开放知识图谱

2020-07-04 01:08

論文筆記整理：譚亦鳴，東南大學博士。

來源：IEICE TRANSACTIONS on Information and Systems, 2020, 103(5): 1002-1005.

鏈接：

https://www.jstage.jst.go.jp/article/transinf/E103.D/5/E103.D_2019DAL0001/_pdf

介紹

這篇論文關注的任務是跨語言實體對齊，目標是將不同語言知識庫中具有相同語義的實體相匹配。作者認爲不同語言的知識圖譜可能具備相同的本體劃分，這一點對於實體對齊來說可能起到作用。（在作者的瞭解範圍裏，目前還沒有實體對齊工作是基於本體信息的，但是多語言知識圖譜如DBpedia，是先構建了統一的本體劃分，然後再遵循這一劃分構建各個語言版本的知識圖譜，如下圖）

爲了驗證這一猜測，本文提出了一個基於TransC的embedding模型：首先由TransC以及參數共享模型將圖譜中所有的實體和關係映射到一個共享的低維語義空間；之後模型迭代通過reinitalization以及soft alignment（軟對齊）策略提升實體對齊的性能。

實驗結果顯示，相對於benchmark算法，本文方法可以有效的利用本體信息，從而得到更好的結果。

P.S. 需要說明的是，本文使用到的本體間關係只有“SubclassOf”這一個。

模型

模型整體可以分爲三個部分：

a. Knowledge embedding part

首先是對實例的embedding：TransE被用於對三元組中的實體和關係進行embedding，投影到一個低維空間中

之後是對實體的InstanceOf三元組的embedding：這種三元組的構成爲(實體，InstanceOf，實體對應的本體類型)，TransC將每個類型對應的向量建模爲一個球型空間s(p,m)，其中p表示球心，m表示球的半徑，對於一個InstanceOf三元組，其對應的energy function爲：

其中e爲e的向量表示。

整體三元組的得分計算爲：

最後是SubClassOf triple embedding：這個部分主要是反應不同類型的本體之間的相對位置，因此計算的方式通過球形空間的相對位置來衡量，即：

b. Joint embedding part

本文使用的參數共享模型基於MTransE(IJCAI 2017)構成，其目的是基於ILLs（DBpedia提供的已知多語言實體對齊），將已知對齊實體embedding，在訓練過程中強制對等。

c. Alignment part

爲了彌補標註數據（已知對齊）的不足，這一步的普遍方案是使用訓練得到的模型對未標註數據進行對齊標註，然後使用新的標註數據作爲訓練集迭代的更新模型，但是這種過程必然引入錯誤對齊。作者提出了兩個策略處理這個問題：

1)Reinitialization

在每輪迭代中，首先訓練multilingual knowledge embedding直至驗證集上的效果邊差，而後對於那些embedding相似性高於預設閾值的實體對，將具有最高相似性的樣本選入ILLs，構成新的標註集。之後對knowledge做重新初始化，並且開始新的迭代訓練。

2)Soft Alignment

3)對於更新的標註集中的實體對，這裏參照Soft Alignmen(IJCAI 2017)定義的得分函數：

對於不同語言的KG1和KG2，更新的標註集不會被用於參數共享模型，而是僅僅用於對齊訓練

實驗

實驗數據：

作者基於DBpedia構建了一個多語言知識圖譜，包含英-法以及英-德兩種語言對。

其構建過程爲：首先隨機的從ILLs中抽取1000個實體對，而後利用這些實體對在ILLs中找到其他包含對齊實體的三元組（但是不在1000樣本中，例如A-B對齊，藉助ILLs找到(A, r1, C)，(B, r2, D)，其中，C和D在ILLs中是對齊實體，這些將被用於測試模型的對齊性能）

數據集的統計信息如下表所示

實驗結果：

跨語言實體對齊實驗結果如下表，其中Ps-TransC(RE+SA)是本文方法，其他Ps爲本文方法的變體，作爲對照組，參考的其他方法爲LM（Linear Mapping）以及MTransE。

OpenKG

開放知識圖譜（簡稱 OpenKG）旨在促進中文知識圖譜數據的開放與互聯，促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文，進入 OpenKG 博客。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

爲什麼要⽤ Foundry

Foundry 爲什麼要⽤ Foundry 快 - 加速開發 Solidity - 減少上下⽂切換功能豐富⾜夠輕量 Foundry 的組件 forge cast anvil 安裝 https://getfoundr

西紅柿愛喫馬鈴薯

2024-04-26 14:31:45

【筆記】動手學深度學習-預備知識

預備知識 2.1 數據操作 import torch x = torch.arange(12) print(x.shape) print(torch.Size(x)) print(x.numel()) X = x.reshape(

2024-04-26 14:29:04

https://stackoverflow.com/questions/419163/what-does-if-name-main-do

https://stackoverflow.com/questions/419163/what-does-if-name-main-do

2024-04-26 14:29:04

py發送帶附件email

import smtplib from email.mime.multipart import MIMEMultipart from email.mime.text import MIMEText from email.mime.base

2024-04-26 14:25:24

docker nginx-proxy 添加自定義https網站

nginx-proxy配置 nginx-proxy: image: jwilder/nginx-proxy container_name: nginx-proxy restart: always por

2024-04-26 14:25:24

Avalonia UI 中 Styles 與 ControlTheme 的區別

目錄目錄介紹使用方式全局主題 (Global Theme) 局部主題 (Local Theme) 控件主題 (ControlTheme) 問題描述問題分析問題1 區別問題2 重寫Template用 Styles

2024-04-26 14:25:24

py發送email

import smtplib from email.mime.text import MIMEText # SMTP服務器設置 smtp_server = 'smtp.qq.com' smtp_port = 587 secure_con

2024-04-26 14:25:24

Kubernetes (k8s) 基礎入門

下面的內容是基於你已經瞭解了 Docker 容器的前提下的，如果還不瞭解什麼是容器，可以先看看之前的文章 https://www.ryanzoe.top/category/docker/ k8s 是什麼 Kubernetes 也稱爲 K8

2024-04-26 14:25:14

PostMan接口測試實用小點

PostMan接口測試實用小點 1. 接口測試變量存取操作在Postman中有很多地方可以存儲一些變量,這裏只介紹經常使用的環境變量.變量設置後,在UI界面可以通過{{變量名}}獲取到對應值. 在環境變量中配置變量url = https:

2024-04-26 14:25:14

使用 k8s 快速部署應用服務

以下是一個完整的例子，展示瞭如何使用Kubernetes部署一個簡單的Web應用程序。這個例子包括一個Deployment和一個Service。首先，創建一個名爲webapp-deployment.yaml的Deployment配置文件：

2024-04-26 14:25:14

windows 新建一個一個後臺服務

Winsw是一個開源工具，用於將命令行應用程序包裝成Windows服務 1. https://github.com/winsw/winsw/releases/tag/v2.12.0 下載 2. 下載完把兩個文件改名字： myservi

2024-04-26 14:23:43

嘗試使用kimi解析體能表格

因爲涉及到體能訓練成績，所以接觸到了很多表格，觸發了對錶格數據的思考：圖表也是重要的數據來源，應該如何來進行處理？圖表的數據不僅關係它本身，而且也和表格形式相關，此外還和背景材料相關。首先從一個比較乾淨的表格開始，它本身是可以編輯的pdf.

2024-04-26 14:23:33

Springboot版本升級

簡介此次升級是爲了解決舊版本的各種漏洞問題。開發軟件：IDEA2019 項目環境：java 8，springboot2.0.5 目標版本：java 8，springboot2.5.5 本文檔前後變化對比，舊代碼使用、// 等表示。依賴

2024-04-26 14:22:43

條款47：請使用 traits classes 表現類型信息

2024-04-26 14:22:03

條款48：認識 template 元編程

2024-04-26 14:22:03

24小時熱門文章

最新文章

最新評論文章