論文筆記整理:葉羣,浙江大學計算機學院,知識圖譜、NLP方向。
會議:ESWC 2020
鏈接:https://suchanek.name/work/publications/eswc-2020-yago.pdf
Introduction
YAGO是世界上最大的鏈接數據庫之一,由德國馬普研究所發佈。在本篇論文中,作者發佈了最新版本的YAGO 4,包含約20億三元組和6400萬實體,融合了schema.org規範的分類體系和Wikidata豐富的實例數據。
Wikidata被認爲是世界上最大的知識庫之一,包括了超過7000萬實體。與此同時,Wikidata社區對自己的定位是信息的集合,而不是我們傳統意義上的“知識”。Wikidata沒有嚴格的語義約束,且存在一些不同來源的自相矛盾的描述。對於下游應用來說,Wikidata的分類體系過於複雜和令人費解;經典的推理機無法在Wikidata知識庫上進行推理,因爲其本身存在很多不一致性。
舉個例子闡述Wikidata的分類體系存在的問題,實體“布達拉宮”是“touristattraction”的一個實例,而“tourist attraction”是“geographic object”的子類,“geographic object”是“geometric concept”的實例,而“geometric concept”是“mathematical concepts”的子類。所以當你在Wikidata搜索“mathematical concepts”,返回的結果有張量,多邊形, … ,以及布達拉宮。
在YAGO 4中,作者採用schema.org簡單且清晰的分類體系來取代Wikidata複雜且費解的分類體系。因此,YAGO 4是一個邏輯一致的知識庫,可以進行基於OWL的推理。
Design
YAGO 4的建立是基於5個主要的設計思路,在這裏依次闡述。
1.Concise Taxonomy
Wikidata擁有一個非常龐大的分類體系,其類別層級結構過深且混亂。同時,分類體系存在不穩定性,任何貢獻者都可以在兩個類別之間添加或刪除“subclassOf”關係,即一次編輯就可能導致上百萬個實體分類結果不同。另一方面,schema.org的分類體系穩定,維護良好,由W3C Schema.org Community Group維護。但是,schema.org的分類體系中缺少一些細粒度的類別和生物化學相關的類別。爲了解決這個問題,作者手工融入了Bioschemas,一個在生命科學領域的分類體系。關於細粒度類別缺失的問題,對於top-level的類別,作者選取schema.org的類別;對於leaf-level的類別(即細粒度的類別),選取Wikidata中的類別。對於Wikidata中實例數量小於10的類別,部分類別的子類以及不符約束的類別,進行丟棄。原始的Wikidata中有240萬個類別,經過清洗保留了10k個類別。
2.Legible Entities and Relations
YAGO 4以RDF格式存儲。與Wikidata不同,採用了可讀性更高的方式來進行URI的命名。若實體有相應的維基百科頁面,以維基百科頁面標題作爲URI。若無維基百科頁面,以該實體的英文標籤和Wikidata標識符作爲URI。若無英文標籤,即以Wikidata標識符作爲URI。
3.Well-typed Values
YAGO 4對於literal也進行了處理,使之更爲規範化。比如,對於日期值,轉換成xsd:dateTime, xsd:date, xsd:gYearMonth或者xsd:gYear。
4.Semantic Constraints
YAGO 4採取了一系列的語義限制,使得可以在知識庫上進行邏輯推理。語義限制利用結構性約束語言(SHACL)和OWL進行建模。語義限制主要包括以下5類:Disjointness:類別之間存在互斥性;Domainand Range:每一個關係都有相應的定義域和值域;Functional Constraints:對於一個特定的關係和subject,只能有一個object;Cardinality Constraints,即限制object的最大數量。
5.Annotations for Temporal Scope
YAGO 4 對於其中的三元組添加了時間信息,通過添加schema:startDate和schema:endDate進行限制。
Knowledge Base
作者設計了一個系統,從Wikidatadump和語義限制自動構建YAGO 4,採用Rust語言編寫。YAGO 4 有 3 種版本:
1)Full:採用了Wikidata中所有數據;
2)Wikipedia:包括Wikidata中所有存在維基百科頁面的實例;
3)EnglishWikipedia:包括Wikidata中所有存在英文維基百科頁面的實例。統計情況如下表所示:
YAGO的網站:http://yago-knowledge.org/
YAGO 4的源代碼:https://github.com/yago-naga/yago4
YAGO 4的SPARQL Endpoint:http://yago-knowledge.org/sparql/query
YAGO 4的Browser:YAGO 4在其網站的首頁提供了圖像化的瀏覽界面,其界面如下圖所示:
YAGO 4的應用:YAGO之前已經成功地應用在了多個項目中,包括問答,實體識別,語義分析等。YAGO 4知識庫可以進行邏輯推理,這將爲很多新的應用提供可能。作者在YAGO 4上嘗試了HermiT推理機,證明了其邏輯一致性。
Conclusion
本文闡述了YAGO的最新版本YAGO 4的特點和建立過程。YAGO 4的優勢在於結合了Wikidata海量的知識和schema.org規範化的分類體系,且在其上可以進行邏輯推理。
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。