论文浅尝 | Iterative Cross-Lingual Entity Alignment Based on TransC

原創

开放知识图谱

2020-07-04 01:08

论文笔记整理：谭亦鸣，东南大学博士。

来源：IEICE TRANSACTIONS on Information and Systems, 2020, 103(5): 1002-1005.

链接：

https://www.jstage.jst.go.jp/article/transinf/E103.D/5/E103.D_2019DAL0001/_pdf

介绍

这篇论文关注的任务是跨语言实体对齐，目标是将不同语言知识库中具有相同语义的实体相匹配。作者认为不同语言的知识图谱可能具备相同的本体划分，这一点对于实体对齐来说可能起到作用。（在作者的了解范围里，目前还没有实体对齐工作是基于本体信息的，但是多语言知识图谱如DBpedia，是先构建了统一的本体划分，然后再遵循这一划分构建各个语言版本的知识图谱，如下图）

为了验证这一猜测，本文提出了一个基于TransC的embedding模型：首先由TransC以及参数共享模型将图谱中所有的实体和关系映射到一个共享的低维语义空间；之后模型迭代通过reinitalization以及soft alignment（软对齐）策略提升实体对齐的性能。

实验结果显示，相对于benchmark算法，本文方法可以有效的利用本体信息，从而得到更好的结果。

P.S. 需要说明的是，本文使用到的本体间关系只有“SubclassOf”这一个。

模型

模型整体可以分为三个部分：

a. Knowledge embedding part

首先是对实例的embedding：TransE被用于对三元组中的实体和关系进行embedding，投影到一个低维空间中

之后是对实体的InstanceOf三元组的embedding：这种三元组的构成为(实体，InstanceOf，实体对应的本体类型)，TransC将每个类型对应的向量建模为一个球型空间s(p,m)，其中p表示球心，m表示球的半径，对于一个InstanceOf三元组，其对应的energy function为：

其中e为e的向量表示。

整体三元组的得分计算为：

最后是SubClassOf triple embedding：这个部分主要是反应不同类型的本体之间的相对位置，因此计算的方式通过球形空间的相对位置来衡量，即：

b. Joint embedding part

本文使用的参数共享模型基于MTransE(IJCAI 2017)构成，其目的是基于ILLs（DBpedia提供的已知多语言实体对齐），将已知对齐实体embedding，在训练过程中强制对等。

c. Alignment part

为了弥补标注数据（已知对齐）的不足，这一步的普遍方案是使用训练得到的模型对未标注数据进行对齐标注，然后使用新的标注数据作为训练集迭代的更新模型，但是这种过程必然引入错误对齐。作者提出了两个策略处理这个问题：

1)Reinitialization

在每轮迭代中，首先训练multilingual knowledge embedding直至验证集上的效果边差，而后对于那些embedding相似性高于预设阈值的实体对，将具有最高相似性的样本选入ILLs，构成新的标注集。之后对knowledge做重新初始化，并且开始新的迭代训练。

2)Soft Alignment

3)对于更新的标注集中的实体对，这里参照Soft Alignmen(IJCAI 2017)定义的得分函数：

对于不同语言的KG1和KG2，更新的标注集不会被用于参数共享模型，而是仅仅用于对齐训练

实验

实验数据：

作者基于DBpedia构建了一个多语言知识图谱，包含英-法以及英-德两种语言对。

其构建过程为：首先随机的从ILLs中抽取1000个实体对，而后利用这些实体对在ILLs中找到其他包含对齐实体的三元组（但是不在1000样本中，例如A-B对齐，借助ILLs找到(A, r1, C)，(B, r2, D)，其中，C和D在ILLs中是对齐实体，这些将被用于测试模型的对齐性能）

数据集的统计信息如下表所示

实验结果：

跨语言实体对齐实验结果如下表，其中Ps-TransC(RE+SA)是本文方法，其他Ps为本文方法的变体，作为对照组，参考的其他方法为LM（Linear Mapping）以及MTransE。

OpenKG

开放知识图谱（简称 OpenKG）旨在促进中文知识图谱数据的开放与互联，促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文，进入 OpenKG 博客。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

一些可用于研究的GIS数据资源

國內的情況就不用說了，基本上是很難找到可以用於研究的GIS數據資源的。要麼就是收費，免費的即使能找到，能否合法合規的進行使用也是一個問題。地理信息數據還是國外比較開放一些，相當多的政府組織或者公益機構對公衆開放了下載渠道，大家可以適度獲取並

2024-05-07 14:31:18

如何在低代码平台中引用 JavaScript ？

引言在當今快速發展的數字化時代，企業對業務應用的需求日益複雜且多元。低代碼開發平臺作爲一個創新的解決方案，以直觀易用的設計理念，打破了傳統的編程壁壘，讓非技術人員也能輕鬆構建功能完備的Web應用程序，無需深入編碼。這一特性極大地簡化了應用

葡萄城技術團隊

2024-05-07 14:30:48

如何使用 JavaScript 获取当前页面帧率 FPS

可以通過計算每秒 window.requestAnimationFrame 的調用頻率來做爲 FPS 值。它接收一個回調函數，該回調函數會在瀏覽器下一次重繪之前執行。所以只要我們循環調用並記錄單位時間內的調用次數就能計算當前頁面的幀率了。

2024-05-07 14:26:58

Dash 2.17版本新特性介绍

本文示例代碼已上傳至我的Github倉庫https://github.com/CNFeffery/dash-master 　　大家好我是費老師，不久前Dash發佈了其2.17.0版本，執行下面的命令進行最新版本Dash的安裝： pip

2024-05-07 14:21:37

人大金仓数据库使（cai）用（keng）记录

最近一直在用人大金倉做項目，相關的文檔相比其它流行的所謂“主流”數據庫來說還是少了點，記錄一些開發過程中遇到的問題。數據庫的模式（database_mode）在實例創建後就確定好了的，不可更改。想要改變模式只能重新init一個實例。

2024-05-07 14:17:06

《最新出炉》系列入门篇-Python+Playwright自动化测试-43-分页测试

1.簡介分頁測試，這種一般都是公共的方法系統中都寫好了，這種一般出現是數據展示比較多的時候，會採取分頁的方法，而且比較固定，一般是沒有問題的，因此它非常適合自動化測試，但是如何使用playwright來進行分頁自動化測試了，宏哥今天就講解

2024-05-07 14:14:46

Ubuntu18 安装NoMachine远程桌面（解决远程桌面延迟）

# 問題：Ubuntu 18 使用自帶的共享桌面、VNC遠程桌面延遲、降低分辨率也無效。 # 方案：最後找到安裝 NoMachine的遠程桌面，解決遠程卡頓問題根據自己操作系統選擇NoMachine for Linux進行下載官網：ht

2024-05-07 14:11:26

gdb调试FAQ

“malloc.c: No such file or directory.” 參考：https://www.cnblogs.com/gatsby123/p/11755320.html 安裝依賴 sudo apt-get install li

2024-05-07 14:08:35

大数据面试SQL每日一题系列：最高峰同时在线主播人数。字节，快手等大厂高频面试题

大數據面試SQL每日一題系列：最高峯同時在線主播人數。字節，快手等大廠高頻面試題之後會不定期更新每日一題sql系列。 SQL面試題每日一題系列內容均來自於網絡以及實際使用情況收集，如有雷同，純屬巧合。 1.題目問題1：如下爲某直播平臺各

2024-05-07 14:06:45

工程款拖欠，农民工怎么了？就得一直忍着委屈求全吗？

事件背景我以前只是在新聞看到過拖欠農民工工資這樣的事，但這次是發生在自己身上了！今天晚上下班後，看見父母面露愁色，並認真的聽着父母的對話。大概意思是就是爸爸跟着工程隊包天活已經完事有一段時間了，但是包天的工資一直不給，而且聽爸爸說那意

2024-05-07 14:06:15

Canvas简历编辑器-我的剪贴板里究竟有什么数据

Canvas圖形編輯器-我的剪貼板裏究竟有什麼數據在這裏我們先來聊聊我們究竟應該如何操作剪貼板，也就是我們在瀏覽器的複製粘貼事件，並且在此基礎上聊聊我們在Canvas圖形編輯器中應該如何控制焦點以及如何實現複製粘貼行爲。在線編輯: h

2024-05-07 14:05:25

HarmonyOS 实现下拉刷新，上拉加载更多

組件介紹 PullToRefreshList允許用戶通過下拉動作來刷新列表內容，以及通過上拉動作來加載更多的數據。組件內部封裝了滾動監聽、狀態管理和動畫效果，使得開發者可以輕鬆集成到自己的項目中。 1. 實現思路封裝成可複用的公共控件：

2024-05-07 14:05:15

【转】在 Linux 里布署 Docker

來自：百度 Docker 可以佈署在 Linux 系統上，也可以佈署在你自己的電腦上。在 Linux 系統上佈署 Docker：安裝 Docker： curl -fsSL https://get.docker.com -o get-d

2024-05-07 14:05:05

使用.NET源生成器(SG)实现一个自动注入的生成器

DI依賴注入對我們後端程序員來說肯定是基礎中的基礎了,我們經常會使用下面的代碼注入相關的service services.AddScoped<Biwen.AutoClassGen.TestConsole.Services.TestServi

2024-05-07 14:04:44

mysql索引使用基础

1.創建&刪除 MySQL可以通過CREATE、ALTER、DDL三種方式創建一個索引。在MySQL中，使用CREATE INDEX語句可以創建索引。具體語法如下： CREATE INDEX indexName ON tableNam

2024-05-07 14:01:04

24小時熱門文章

最新文章

最新評論文章