[事件知識圖譜] EventKG: A Multilingual Event-Centric Temporal Knowledge Graph

ESWC 2018 EventKG: A Multilingual Event-Centric Temporal Knowledge Graph
Author Gottschalk, Simon,Demidova, Elena
paper https://arxiv.org/pdf/1804.04526.pdf
url http://eventkg.l3s.uni-hannover.de/

促進對網絡、新聞和社交媒體上有關當代和歷史事件的信息進行語義分析的關鍵要求之一是提供包含事件和時間關係的全面表示的參考知識庫。現有的知識圖,包括DBpedia、YAGO和Wikidata等,主要集中在以實體爲中心的信息上,在事件和時間關係方面的覆蓋率和完整性方面都不夠。本文提出的EventKG是一個多語言的以事件爲中心的時態知識圖譜,解決了這個問題。EventKG包含了69萬多個當代和歷史事件以及230多萬個時間關係,這些關係是從多個大型知識圖和半結構化資源中提取出來的,並通過規範化的表示方式提供。

1 引言

動機:
有關具有全球重要性的當代和歷史事件的以事件爲中心的信息量,例如英國脫歐,2018年冬季奧運會和敘利亞內戰等,在網絡,新聞來源和社交媒體中不斷增長。有效地訪問和分析大規模的以事件爲中心的時間信息對於語義網,自然語言處理和數字人文科學領域的各種實際應用至關重要。在語義Web和NLP中,這些應用程序包括問答[14]和時間軸生成[1]。在數字人文學科中,多語言事件庫可以促進跨文化研究,旨在分析特定語言和特定社區對歷史和當代事件的看法(這類研究的例子見[11]、[18])。此外,以事件爲中心的知識圖譜可以促進歷史的重建以及隨着時間的推移人們和組織的網絡[19]。促進對當代和歷史事件進行有效分析的關鍵先決條件之一是,提供有關事件,所涉及實體及其時間關係(即一段時間內有效的關係)的參考信息的知識庫。

以事件爲中心的現有信息源和時間信息的侷限性:
當前,事件表示和時間關係分佈在異構源中。首先,大型知識圖譜(KGs)(即基於圖的知識存儲庫[7],例如Wikidata [6],DBpedia [16]和YAGO [17])通常關注以實體爲中心的知識。這些資源中包含的以事件爲中心的信息通常不能被如此清晰地標識出來,它們可能是不完整的,並且主要限於命名事件和百科全書知識。例如,如下文第5節所述,在EventKG中包含的322669個事件中,只有18.70%使用dbo:Event在英語數據庫裏。此外,現有知識圖中的事件描述通常缺少關鍵屬性,例如時間和位置。例如,Wikidata中只有33%的事件提供了時間信息,而11.70%的事件提供了空間信息。其次,各種人工策劃的半結構化資源(例如Wikipedia Current Events Portal(WCEP)[22]和多語種Wikipedia事件列表)都包含有關當代事件的信息。但是,這些事件中缺少事件和時間關係的結構化表示,這阻礙了它們通過語義技術直接用於現實應用中。第三,最近提出的包含從非結構化新聞源(例如[19])中提取的當代事件的知識圖譜可能具有很高的噪聲(例如[19]報告提取精度爲0.55),尚未得到廣泛採用。最後,可以在將來的工作中探索的以事件爲中心的信息源是Web標記[21]和以事件爲中心的網絡爬蟲[8]。總體而言,對於當代和歷史事件及其可用於現實世界的時間關係的綜合觀點仍然缺失。提供EventKG將有助於克服這些限制。

EventKG&先進技術:
本文介紹的EventKG邁出了重要的一步,以促進對當前分佈在以實體爲中心的知識圖譜和人工策劃的半結構化源之間的事件和時間關係的全局視圖。 EventKG 以一種有效的輕量級方式提取並整合了這些知識,並用附加的特性來豐富它,例如關係強度和事件流行度的指示,添加出處信息,並通過規範表示使所有這些信息可用。 EventKG遵循數據發佈的最佳實踐,並重用現有的數據模型和詞彙表(如Simple Event Model [23]和DBpedia本體),通過應用語義技術和開放標準(如RDF和SPARQL),促進其在實際應用中的高效重用。 EventKG當前包括五種語言的數據源-英語(en),德語(de),法語(fr),俄語(ru)和葡萄牙語(pt)-並且是可擴展的。 EventKG的主要貢獻如下:

  • 一個多語言RDF知識圖譜,在V1.1中包含了超過69萬個事件和230多萬個時間關係,這些知識圖是從幾個大型的以實體爲中心的知識圖譜(即Wikidata、五種語言版本的DBpedia和YAGO)中提取的,以及WCEP和Wikipedia五種語言的事件列表。在下面,我們將這些用於填充EventKG的源稱爲參考源。EventKG的主要功能包括:
    - 提供以事件爲中心的信息(包括歷史和當代事件)和使用規範表示的時間關係
    - 對來自異構參考源的事件表示和關係進行輕量級集成和融合
    - 與單個參考源相比,事件表示的覆蓋範圍和完整性更高(見第5節)
    - 提供相互關聯的信息,以便於評估關係強度和活動受歡迎程度
    - EventKG中包含的所有信息的出處
  • 一個開源提取框架,用於提取和維護EventKG的最新版本,可擴展到其他語言和參考源。

與其他現有資源的比較:
就我們所知,目前還沒有專門的知識圖譜來彙總與EventKG直接可比的歷史和當代事件的事件中心信息和時間關係。以事件爲中心和時間信息的數據模型和詞彙表(如[12,19,20,23])的異構性、現有知識圖譜的大規模性(事件在其中的作用微不足道)以及缺乏對以事件爲中心的信息的清晰識別,使得識別、提取、融合和高效地分析以事件爲中心的和時態的信息,並以直觀和統一的方式使真實世界的應用程序能夠訪問這些信息變得很有挑戰性。通過輕量級集成和融合來自不同來源的以事件爲中心的時間信息,EventKG可以增加此信息的覆蓋範圍和完整性。例如,EventKG相應地將其包含的Wikidata事件的位置和日期的覆蓋範圍增加了14.43%和17.82%(有關更多詳細信息,請參閱第5節中的表6)。此外,現有資源缺乏EventKG提供的結構化信息來判斷事件的受歡迎程度和關聯強度-由於Web上以事件爲中心的時間數據和時態數據的迅速增加以及信息過載,該特性獲得了關鍵的相關性。

2 相關性

與語義web社區和社會的相關性:
我們的社會面臨着前所未有數量的事件,這些事件影響着跨越語言和社區邊界的多個社區。在這種情況下,EventKG促進對以不同來源起源的以事件爲中心的多語言信息的有效訪問以及有效的歧義化和分析,對於包括語義網,NLP和數字人文科學在內的多個科學社區而言,這至關重要。 在語義Web社區的上下文中,EventKG的應用領域包括以事件爲中心的問題解答和基於排名的時間線生成,這些時間線生成需要評估事件的受歡迎程度和關聯強度。在數字人文科學中,EventKG作爲以多種語言爲中心的以事件爲中心的存儲庫,可以爲跨文化和跨語言以事件爲中心的分析提供獨特的資源(例如[11],[18]中所示),同時減少了數據提取,集成的障礙和融合。

與問答應用程序的相關性:
在問答領域(QA)[14],當前的研究重點是從以自然語言構成的用戶查詢生成形式化查詢表達式(例如,SPARQL查詢語言)以及QA和語義搜索[24],[4]的交互方法。當前,研究主要針對可以使用流行的以實體爲中心的知識圖譜(例如DBpedia)回答的問題。有了EventKG,就可以針對事件相關的問題,例如“ 1980年在華盛頓發生了哪些與比爾·克林頓有關的事件?”和基於排名的問題,例如“在阿勒頗發生的與敘利亞內戰有關的最重要事件是什麼?”

生成時間線的相關性:
時間線生成是一個活躍的研究領域[1],其重點是從知識圖譜中爲實體生成事件和時間關係的時間軸(即按時間順序排列的選擇)。EventKG可以幫助生成包含來自不同來源的補充信息的詳細時間線,從而可能導致更完整的時間線和事件表示。例如,表1顯示了使用EventKG生成的時間軸上的一段摘錄,用於查詢“1941年2月12日至2月28日期間第二次世界大戰有哪些次事件?“。表1中時間軸中的第一個事件(“Erwin Rommel arrives in Tripoli”)摘自英文維基百科事件列表(“1941 in Germany”)中,沒有包含在用於填充EventKG(Wikidata、DBpedia和YAGO)的任何參考知識圖譜中。其他三個事件的參考來源包括補充信息。例如,雖然“Action of 27 February 1941”在維基數據中被指定了一個開始日期,但它與第二次世界大戰沒有關聯。
在這裏插入圖片描述

跨文化以事件爲中心分析中事件流行度和關係強度的評估:
事件流行度和事件與實體之間的關係強度因不同的文化和語言環境而不同。例如,表2列出了俄語版和英語版維基百科中最受歡迎的4個事件,這些事件在各自的維基百科版本中被鏈接的頻率是多少。雖然兩個維基百科語言版本都提到了全球重要事件,但在這裏,最常見的兩次世界大戰,其他最受歡迎的事件(如“十月革命”和“美國內戰”)是特定語言的。在特定的語言環境中,事件和實體之間的關係強度可以通過計算它們在維基百科中的聯合引用來歸納。例如,表3以不同的語言版本列出了與第二次世界大戰最相關的人員。 有關事件受歡迎程度和關聯強度的信息可以根據佈局限制選擇最相關的時間軸條目(例如EventKG包含第二次世界大戰的2,816個子事件)。 [10]中介紹了EventKG在跨語言時間軸生成中的應用。 使用EventKG授權的界面可以用作識別爭議事件的起點,並使用MultiWiki等工具進行更詳細的分析。
在這裏插入圖片描述
支持採用語義Web技術的影響:
**EventKG遵循數據發佈的最佳實踐,並依賴於開放數據和W3C標準,使數據可用於各種實際應用程序。**我們相信,在語義Web社區之外使用EventKG的研究人員,例如在NLP和數字人文領域,將受益於W3C標準的採用,如RDF、SPARQL和已建立詞彙的重複使用,從而促進語義Web技術的採用,例如在信息提取方面,媒體分析和跨文化研究。

3 EventKG數據模型

EventKG數據模型的目標是促進從參考源提取的異構事件表示和時間關係的輕量級集成和融合,並使這些信息可用於真實世界的應用程序。EventKG數據模型由以下目標驅動:

  • 通過規範表示定義事件的關鍵屬性。
  • 表示事件和實體之間的時間關係(包括事件-實體、實體-事件和實體-實體關係)。
  • 包括量化和進一步描述這些關係的信息。
  • 表示事件之間的關係(例如,在事件系列的上下文中)。
  • 支持事件表示和來自異構源的時間關係的高效輕量級集成。
  • 爲EventKG中包含的信息提供出處。

EventKG schema 和 Simple Event Model:
在EventKG中,我們以簡單事件模型(SEM)[23]爲基礎對事件進行建模。 SEM是一種靈活的數據模型,提供了以事件爲中心的通用框架。 在EvenKG模式(命名空間eventKG-s)中,我們採用附加的屬性和類來充分表示從參考源中提取的信息,以對時間關係和事件關係建模並提供出處信息。 EventKG的架構如圖1所示。
EventKG schema基於SEM,空心箭頭表示rdfs:subClassOf,常規箭頭表示屬性的定義域和值域限制,其他重用詞彙中的術語用綠色標記,EventKG 中引入的類和屬性被塗成橙色。
在這裏插入圖片描述
事件和實體:
SEM提供了一個通用的事件表示,包括事件的主題、地理和時間維度,以及與參與者(即參與事件的實體)的鏈接。 這些資源在命名空間eventKG-r中標識。因此,SEM和EventKG模式的關鍵類是sem:Event表示事件,sem:Place代表地點,sem:Actor表示參與事件的實體。每個類都是sem:Core的一個子類,用於表示EventKG中的所有實體。(注意EventKG中的實體不一定是事件的參與者;兩個實體之間具有時間關係也是可能的)。事件通過sem:hasPlace屬性和其中的位置相連。一個sem:Core實例可以分配一個存在的時間,通過 sem:hasBeginTimeStampsem:hasEndTimeStamp表示。除了SEM表示方式之外,EventKG還提供有關從參考源(包括標籤)中提取的事件和實體的文本信息(rdfs:label),別名(dcterms:alternative)以及對事件的描述(dcterms:description).

時間關係:
時間關係是在特定時間段內有效的關係。 在EventKG中,它們包括事件-實體,實體-事件和實體-實體關係。 事件和實體之間的時間關係通常將事件及其參與者聯繫起來(如SEM中)。兩個實體之間時間關係的一個典型例子是婚姻。實體之間的時間關係也可以間接地捕獲有關事件的信息[19]。例如,DBpedia屬性 http://dbpedia.org/property/acquired 可以用來表示一個公司被另一個公司收購的事件。SEM中的時間關係僅限於參與者在事件上下文中扮演特定角色的情況。這產生了兩個侷限性:(i)當實體作爲主語時,不可能對事件和賓語之間的時間關係進行建模。例如,不能直接建模“巴拉克奧巴馬”參與“巴拉克奧巴馬第二次就職”活動的事實,因爲實體“巴拉克奧巴馬”在這一關係中的角色是主語;(ii)不能直接建模婚姻等兩個實體之間的時間關係。爲了克服這些限制,EventKG引入了類eventKG-s:Relation,它鏈接兩個sem:Core實例(每個代表一個事件或一個實體)。這個關係可以用一個有效時間和一個描述關係特徵的sem:RoleType屬性來註釋。這樣,可以表示實體對之間的任意時間關係或涉及實體和事件的關係。圖2使用EventKG數據模型可視化了上述示例。
在這裏插入圖片描述
間接時間信息的關係:
關係的時間有效性並不總是被明確地提供,但通常可以根據參與者實體或事件的存在時間來估計。例如,可以使用子實體的出生日期來確定“母親”關係的有效性。因此,除了具有已知有效時間的時間關係外,只要提供兩個實體的存在時間,EventKG還包括與事件相關的關係以及與實體相關的關係。

其他事件和實體關係:
事件之間的關係(特別是子事件、上一個事件和下一個事件的關係)在事件序列(如“夏季奧運會”)、包含許多相關事件的季節(例如在體育運動中)或與某個主題相關的事件(如軍事衝突中的作戰)中起着重要作用。子事件關係使用so:hasSubEvent屬性來建模。在一系列事件中,如奧林匹克運動會的順序,使用dbo:previousEventdbo:nextEvent將事件相互聯繫起來。位置層次結構是通過屬性so:containedInPlace提供的。

關係強度與事件流行度的衡量:
衡量事件和實體之間的關係強度和事件的流行度可以回答類似“誰是事件最重要的參與者?”這樣的問題或者“最受歡迎的事件是什麼?”。我們在EventKG模式中包含兩個相關因素:

  1. Links:此因子表示一個實體的描述引用另一個實體的頻率。直觀地說,這個因素可以用來估計事件的流行程度和它們之間關係的強度。在EventKG中,links因子通過eventKG-s:-Relation域中的謂詞eventKG-s:links來表示。eventKG-s:links表示代表關係主語的Wikipedia文章鏈接到表示賓語的實體的頻率。
  2. MentionseventKG-s:mentions表示外部源中引用的關係數。直觀地說,這個因子可以用來估計關係強度。在EventKG中,eventKG-s:mentions表示Wikipedia中同時提到關係的主語和賓語的句子數。

來源信息:
EventKG提供以下來源信息:(i)實例資源的來源;(ii)引用來源的表示;以及(iii)表達式的來源。

  • 實例資源的來源: EventKG資源通常直接對應於參考源中包含的事件和實體(例如,EventKG中代表Barack Obama的實體對應於DBpedia資源http://dbpedia.org/page/Barack_Obama)。在這種情況下 owl:sameAs屬性用於鏈接兩個資源。EventKG資源也可以從資源集合中提取。例如,2007年的哲學事件可以從維基百科事件列表 https://en.wikipedia.org/wiki/2007_in_philosophy中提取。在本例中,EventKG屬性eventKG-s:-extractedFrom用於在EventKG資源和從中提取該資源的資源集合之間建立鏈接。通過出處URI,可以訪問參考源中包含的背景知識。
  • 引用來源的表示: EventKG和每個參考源都通過void:Dataset表示。名稱空間eventKG-g中的此類實例包含源的特定屬性(例如,其創建日期)。
  • 表達式的來源: EventKG中的語句表示爲四元組,包含三元組和它所屬的命名圖的URI。通過命名圖,EventKG提供了一種直觀的方法來檢索使用SPARQL查詢從各個參考源提取的信息。

4 EventKG生成

EventKG生成管道如圖3所示。
在這裏插入圖片描述
輸入: 首先,收集參考源的轉儲
事件的識別和提取: 在參考源中識別並提取事件實例,如下所示:

  • 步驟1a:事件的識別和提取
    - Wikidata:我們將事件標識爲Wikidata的“event”和“occurrence”的子類。添加““occurrence””實例以提高召回率。一些已識別的子類被手動列入黑名單。
    - DBpedia:對於每個語言版本,我們將DBpedia事件標識爲dbo:Event或它的子類
    - YAGO:由於事件子類別噪聲太多(如event > act > activity > protection > self-defense > martial art),我們不使用YAGO本體進行事件識別。YAGO事件在步驟Ib中識別。
    - Wikipedia Event Lists:對於每種語言,我們使用類似於[13]的方法從Wikipedia事件列表中提取事件,這些事件的標題包含時間表達式,例如“2007 in Science”和“August 11”。

    我們在DBpedia和Wikidata中手動評估了這一步驟中確定的事件的隨機樣本,包括每千克100個事件和語言版本,平均精度達到98%。

  • 步驟1b:使用額外的事件識別啓發式來提高召回率。
    首先,我們使用現有的owl:sameAs鏈接在參考源中傳播有關已識別事件的信息。其次,我們使用與手動定義的依賴於語言的正則表達式相匹配的Wikipedia類別名稱(例如,以“events”結尾的英語類別名稱)表明與此類文章相關的KG條目是一個事件。我們在100個與英文和俄文維基百科相關的事件中隨機抽取了100個事件,並對其進行了人工評估,準確率分別達到94%和88%。

在EventKG V1.1中,我們沒有明確區分單個事件(如“Solar eclipse of August 10, 1915”),季節相關的事件(如“2008 Emperor’s Cup”)和事件系列(如“Mario Marathon”)。

事件和實體關係的提取:
我們提取了以下類型的關係:1)基於時間有效性信息的有效性來識別時間關係。時態關係是從YAGO和Wikidata中提取的,因爲DBpedia不提供此類信息。2)與間接時間信息的關係:我們提取所有涉及事件的關係以及已知存在時間的實體之間的關係。3) 其他事件和實體關係:我們使用一個手動定義的映射表來識別在EventKG中表示事件關係的謂詞,比如so:hasSubEvent(例如,如果屬性用於連接事件,我們將Wikidata的part of屬性(P361)映射到 so:hasSubEvent),dbo:previousEventdbo:nextEventso:containedInPlace用於提取位置層次結構。我們基於Wikipedia互連,爲包含至少一個事件的每對互連實體,提取量化關係強度和事件受歡迎程度的信息。僅當實體參與提取的關係時,才提取實體。

集成:
從引用源提取的語句包含在命名圖中,每個命名圖對應於一個引用源。此外,我們還創建了一個命名圖eventKG-g:event_kgeventKG-g:event_kg中的每個sem:Eventsem:Core實例集成來自與等效realworld實例相關的參考源中的以事件爲中心和以實體爲中心的信息。對於從KG中提取的實例,owl:sameAs鏈接被使用。利用基於描述、時間和鏈接的基於規則的方法對從半結構化源中提取的事件進行集成。

融合:
在融合步驟中,我們使用基於規則的方法聚合eventKG-g:event kg事件的時間,空間和類型信息。

  • 位置融合:對於eventKG-g:event_kg中的每個事件,我們從不同的參考源中獲取其位置的並集,並利用so:containedInPlace關係將該集合減小到最小(例如,集合{巴黎,法國,里昂}簡化爲{巴黎,里昂})。
  • 時間融合:對於具有已知存在或有效時間戳的每個實體、事件或關係,使用以下規則進行整合:(i)如果有其他日期可用,忽略開始或結束時的日期的時間單位(例如1月1日); (ii)在參考源中進行多數表決; (iii)從可信源獲取時間戳(順序爲:Wikidata,DBpedia,Wikipedia,WCEP,YAGO)。
  • 類型融合:我們在參考源中根據DBpedia本體(dbo)提供rdf:type信息,使用類型和owl:sameAs鏈接。

輸出:
最後,根據EventKG數據模型,提取的實例和關係用RDF表示(見第3節)。如上所述,在單獨的命名圖中提供從每個參考源提取的信息和融合步驟的結果。

5 EventKG特徵

在EventKG V1.1中,我們從截至12/2017的每個參考源的最新可用版本中提取了五種語言的事件表示和關係。表4總結了從03/2018發佈的EventKG V1.1中選擇的統計信息。總體而言,此版本提供了超過69萬個事件和超過230萬個時間關係的信息。將近一半的事件(46.75%)來自現有的KGs;另一半(53.25%)來自半結構化資源。各個命名圖中的數據質量直接對應於參考源的質量。在eventKG-g:event kg中,大多數事件(76.21%)具有已知的開始或結束時間。提供了佔事件總數12.21%的位置。位置覆蓋範圍可以在以後的工作中進一步增加,例如使用NLP技術從事件描述中提取位置。除了超過230萬個時間關係之外,EventKG V1.1還包括事件與時間之間不可用的實體之間的關係。這樣一來,整個關係就超過了8800萬。這些關係中大約有一半具有相互聯繫的信息。
在這裏插入圖片描述

5.1 EventKG與參考源的比較

我們將EventKG與它的參考源進行比較,以確定事件的數量及其表示的完整性。事件識別步驟Ia的結果如表5所示。包含690247個事件的EventKG包含的事件數遠遠高於其任何參考源。這尤其是由於KGs和半結構化源的集成。

表6給出了EventKG及其參考知識圖譜(Wikidata、YAGO、DBpedia)中事件表示的比較。正如我們所觀察到的,通過整合以事件爲中心的信息,EventKG:1)能夠更好地識別事件(例如,我們可以將322669個事件從EventKG映射到Wikidata,而最初在Wikidata中只有266198個被標識爲事件-見表5),2)提供更完整的事件表示(即,與最完整的參考源Wikidata相比,EventKG提供了更高百分比的具有特定時間和空間信息的事件)。最常見的事件類型依賴於源代碼(見表7)。

5.2 關係與融合統計

超過230萬個時間關係是EventKG的重要組成部分。 EventKG中的大多數常用謂詞,例如“運動隊成員”(882,398關係),“遺產指定”(221,472),“獲得獎項”(128,125)和“保留職位”(105,333)都來自Wikidata。 YAGO的時間關係中最大的部分是謂詞“plays for”(492263),指的是足球運動員。 其他YAGO謂詞(如“has won prize”)的頻率較低。 總體而言,大約93.62%的時間關係的起始時間爲1900年至2020年。從KG中提取的事件的81.75%被多個來源覆蓋。 在融合步驟中,我們觀察到具有已知開始時間的事件的93.79%與不同來源上的開始時間一致。
在這裏插入圖片描述

5.3 文字說明

EventKG V1.1包含五種語言的信息。總的來說,從KGs中提取的事件中有87.65%提供了英文標籤,而只有一小部分(4.49%)提供了所有語言的標籤。在從半結構化資料中提取的367578件事件中,只有115件用所有五種語言描述,例如1981年航天飛機首次發射。這表明在今後的工作中,有可能進一步豐富多語種的事件描述。

6 可重用性

爲了促進EventKG的高效重用,我們提供了下載資源,以及通過SPARQL端點提供的資源。EventKG的主頁提供了資源的全面文檔,包括示例查詢。圖1給出了EventKG的模式圖。EventKG是用RDF建模的,具有高度的可擴展性。 例如,可以包括更多的語言並定製參考數據源的選擇。最近的研究表明,互連是數據集重用的一個重要因素[5]。在這個程度上,EventKG提供了與其參考源的大量互連

目前,EventKG的預期用途包括在創新的以事件爲中心的問答應用程序的背景下,與諸如ALEXANDRIA(用於以事件爲中心的數據豐富Web檔案)和WDAqua ITN等歐盟項目的合作。我們相信,由於EventKG的獨特性和普遍適用性,EventKG將在未來被許多社區的第三方廣泛重用,如第2節所述。

EventKG遵循數據發佈的最佳實踐。它使用RDF W3C標準對包含的數據進行建模和互連。 EventKG採用開放數據和開放源代碼方法,使其可以被廣泛使用,並促進數據和軟件的重用。 EventKG支持數據的多種語言,提供可解除引用的URI,並實施一種持久策略以在各個版本中維護其URI,以確保相同URI被一致地重用於相同的實際對象。

EventKG重用並擴展了已建立的事件模型,即SEM[23]來描述它所包含的與事件相關的信息,並重用現有的詞彙表(例如DBpedia ontology,Dublin Core)。EventKG元數據是使用VoID詞彙表提供的。EventKG遵循FAIR標準,使其可查找、可訪問、可互操作和可重用。EventKG描述可以在EventKG主頁上以人類和機器可讀的格式提供。

7 可用性和可持續性

可用性方面: EventKG使用開放標準,在CC BY 4.0 license下的持久URI下公開可用。EventKG主頁提供有關引用資源的信息。根據MIT License,我們的提取管道在github上作爲開源軟件提供。

可持續性計劃: 通過三個構建塊確保EventKG的可持續性:1)開源架構和軟件:爲創建EventKG而開發的軟件是開源的,可供社區重新使用,以提取新版本的知識圖譜,或者擴展資源以包含更多引用源、語言或事件屬性。2)現有公共可用數據的集成:作爲EventKG中數據基礎的參考源是公開的,其中許多由社區維護,因此可以維護資源的新版本,特別是包括新事件。3) EventKG的維護:作者計劃定期執行EventKG更新。EventKG資源的URIs將得到維護,並在不同版本之間保持穩定。

8 相關工作

事件的數據模型和詞彙表: 幾個數據模型和相應的詞彙表(例如[12,19,20,23])提供了對事件建模的方法。例如,Rospocher等人提出的ECKG模型。[19] 啓用細粒度文本註釋來對從新聞集合中提取的事件進行建模。簡單事件模型(SEM)[23],schema.org[12] 和事件關聯開放描述(LODE)本體[20]提供了描述事件並將其與參與者、時間和地點聯繫起來的方法。在EventKG中,我們建立在SEM的基礎上,並擴展此模型來表示更廣泛的時間關係,並提供有關事件的附加信息。

提取以事件爲中心的信息: 大多數用於自動知識圖構建和集成的方法集中於實體和相關事實,而不是事件。示例包括DBpedia[16]、Freebase[2]、YAGO[17]和YAGO+F[3]。相反,EventKG關注事件和時間關係。在[22]中,作者從WCEP中提取事件信息。EventKG在這項工作的基礎上構建了WCEP事件。

從新聞中提取事件和事實: 最近,已經解決了直接從純文本新聞中構建知識圖譜[19]和從新聞中提取命名事件的問題[15]。這些方法應用開放式信息抽取方法,並進一步發展,以解決新聞領域事件抽取中的具體挑戰。自動從新聞中提取事件的最新技術可能會獲得噪音大且不可靠的結果(例如,文獻[19]中最先進的提取方法報告的準確度僅爲0.551)。相比之下,EventKG中包含的當代事件來自於手工策劃的資源,如WCEP和Wikipedia事件列表。

9 結論

在本文中,我們提出了一個多語言知識圖譜EventKG,它整合並協調了關於歷史和當代事件的以事件爲中心的和時間的信息。EventKG V1.1包括超過69萬個事件資源和超過230萬個時間關係。EventKG的獨特之處包括在單一的知識圖譜中對結構化和半結構化的多語言事件表示和時間關係進行輕量級的集成和融合,以及提供信息以便於評估關係強度和事件流行度,同時提供出處。輕量級的集成能夠顯著增加所包含事件表示的覆蓋率和完整性,特別是在時間和位置方面。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章