論文淺嘗 - ESWC2020 | YAGO 4: A Reason-able Knowledge Base

論文筆記整理:葉羣,浙江大學計算機學院,知識圖譜、NLP方向。


會議:ESWC 2020

鏈接:https://suchanek.name/work/publications/eswc-2020-yago.pdf

Introduction

YAGO是世界上最大的鏈接數據庫之一,由德國馬普研究所發佈。在本篇論文中,作者發佈了最新版本的YAGO 4,包含約20億三元組和6400萬實體,融合了schema.org規範的分類體系和Wikidata豐富的實例數據。

Wikidata被認爲是世界上最大的知識庫之一,包括了超過7000萬實體。與此同時,Wikidata社區對自己的定位是信息的集合,而不是我們傳統意義上的“知識”。Wikidata沒有嚴格的語義約束,且存在一些不同來源的自相矛盾的描述。對於下游應用來說,Wikidata的分類體系過於複雜和令人費解;經典的推理機無法在Wikidata知識庫上進行推理,因爲其本身存在很多不一致性。

舉個例子闡述Wikidata的分類體系存在的問題,實體“布達拉宮”是“touristattraction”的一個實例,而“tourist attraction”是“geographic object”的子類,“geographic object”是“geometric concept”的實例,而“geometric concept”是“mathematical concepts”的子類。所以當你在Wikidata搜索“mathematical concepts”,返回的結果有張量,多邊形, … ,以及布達拉宮。

在YAGO 4中,作者採用schema.org簡單且清晰的分類體系來取代Wikidata複雜且費解的分類體系。因此,YAGO 4是一個邏輯一致的知識庫,可以進行基於OWL的推理。

Design

YAGO 4的建立是基於5個主要的設計思路,在這裏依次闡述。

1.Concise Taxonomy

Wikidata擁有一個非常龐大的分類體系,其類別層級結構過深且混亂。同時,分類體系存在不穩定性,任何貢獻者都可以在兩個類別之間添加或刪除“subclassOf”關係,即一次編輯就可能導致上百萬個實體分類結果不同。另一方面,schema.org的分類體系穩定,維護良好,由W3C Schema.org Community Group維護。但是,schema.org的分類體系中缺少一些細粒度的類別和生物化學相關的類別。爲了解決這個問題,作者手工融入了Bioschemas,一個在生命科學領域的分類體系。關於細粒度類別缺失的問題,對於top-level的類別,作者選取schema.org的類別;對於leaf-level的類別(即細粒度的類別),選取Wikidata中的類別。對於Wikidata中實例數量小於10的類別,部分類別的子類以及不符約束的類別,進行丟棄。原始的Wikidata中有240萬個類別,經過清洗保留了10k個類別。

2.Legible Entities and Relations

YAGO 4以RDF格式存儲。與Wikidata不同,採用了可讀性更高的方式來進行URI的命名。若實體有相應的維基百科頁面,以維基百科頁面標題作爲URI。若無維基百科頁面,以該實體的英文標籤和Wikidata標識符作爲URI。若無英文標籤,即以Wikidata標識符作爲URI。

3.Well-typed Values

YAGO 4對於literal也進行了處理,使之更爲規範化。比如,對於日期值,轉換成xsd:dateTime, xsd:date, xsd:gYearMonth或者xsd:gYear

4.Semantic Constraints

YAGO 4採取了一系列的語義限制,使得可以在知識庫上進行邏輯推理。語義限制利用結構性約束語言(SHACL)和OWL進行建模。語義限制主要包括以下5類:Disjointness:類別之間存在互斥性;Domainand Range:每一個關係都有相應的定義域和值域;Functional Constraints:對於一個特定的關係和subject,只能有一個object;Cardinality Constraints,即限制object的最大數量。

5.Annotations for Temporal Scope

YAGO 4 對於其中的三元組添加了時間信息,通過添加schema:startDateschema:endDate進行限制。

Knowledge Base

      作者設計了一個系統,從Wikidatadump和語義限制自動構建YAGO 4,採用Rust語言編寫。YAGO 4 3 種版本:

1)Full:採用了Wikidata中所有數據;

2)Wikipedia:包括Wikidata中所有存在維基百科頁面的實例;

3)EnglishWikipedia:包括Wikidata中所有存在英文維基百科頁面的實例。統計情況如下表所示:

YAGO的網站:http://yago-knowledge.org/

YAGO 4的源代碼:https://github.com/yago-naga/yago4

YAGO 4SPARQL Endpointhttp://yago-knowledge.org/sparql/query

YAGO 4的Browser:YAGO 4在其網站的首頁提供了圖像化的瀏覽界面,其界面如下圖所示

YAGO 4的應用:YAGO之前已經成功地應用在了多個項目中,包括問答,實體識別,語義分析等。YAGO 4知識庫可以進行邏輯推理,這將爲很多新的應用提供可能。作者在YAGO 4上嘗試了HermiT推理機,證明了其邏輯一致性。

Conclusion

本文闡述了YAGO的最新版本YAGO 4的特點和建立過程。YAGO 4的優勢在於結合了Wikidata海量的知識和schema.org規範化的分類體系,且在其上可以進行邏輯推理。

 


 

OpenKG

開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文,進入 OpenKG 博客。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章