[事件知識圖譜] Building event-centric knowledge graphs from news

Journal of Web Semantics(2016) Building event-centric knowledge graphs from news
Author Marco Rospocher, Marieke van Erp, Piek Vossen, Antske Fokkens, Itziar Aldabe,German Rigau, Aitor Soroa, Thomas Ploeger, Tessel Bogaar
url https://www.sciencedirect.com/science/article/pii/S1570826815001456
keywords Event-centric knowledge, Natural language processing, Event extraction, Information integration. Big data, Real world data

得益於在搜索引擎中的應用,在過去幾年裏,知識圖譜越來越受歡迎。通常情況下,它們包含了一些靜態和百科全書式的關於個人或組織的事實。例如從Freebase或Wikipedia等大型知識庫中獲得的名人的生日、職業和家庭成員。
本文提出了一種從新聞文章中自動生成知識圖譜的方法和工具。當新聞文章通過報道事件來描述世界的變化時,我們提出了一種使用最先進的自然語言處理和語義web技術來構建以事件爲中心的知識圖譜(ECKGs)的方法。這些ECKGs記錄成千上萬個實體的長期發展和歷史,是對傳統知識圖譜中靜態百科全書信息的補充。
我們描述了我們以事件爲中心的表示模式、從新聞中提取事件信息的挑戰、我們的open source pipeline以及我們從四個不同的新聞語料庫中提取的知識圖譜:常規新聞(Wikinews)、國際足聯世界盃(FIFA world cup)、全球汽車工業和空客A380飛機。此外,我們還評估了流水線方法在抽取知識圖譜三元組時的準確性。此外,通過一個以事件爲中心的瀏覽器和可視化工具,我們展示瞭如何以事件爲中心的方式從新聞中獲取信息,從而增加用戶對領域的理解,促進新聞故事線的重建,並能夠對新聞隱藏的事實進行探索性調查。

1 引言

由於在搜索引擎中的應用,知識圖譜在過去幾年裏越來越受歡迎。知識圖譜是以實體爲事實的知識庫,通常從結構化知識庫或百科全書知識庫中獲取。例如,給定一個名人,知識圖譜中通常包括他的出生日期、出生地、親屬以及使他成名的重大事件和活動等信息。然而,只有一小部分世界上正在發生的事情能真正進入這些數據庫。有很多事件被認爲不夠重要,不足以被包括在內,或者可能不與這些名人有聯繫。**此外,當前的知識庫傾向於表示世界的實際狀態,而不關注動態和隨時間的變化。**在日益增長的日常新聞中,越來越多的流動信息往往會迷失在當前的知識圖譜和我們逐漸消失的記憶中,但對於那些需要重建某人過去或整個行業、地區或組織的龐大歷史的信息專業人員來說,這一點非常重要。因此,需要一種不同類型的結構化數據庫,圍繞事件而不是實體和以實體爲中心的實際事實。獲取這種動態知識需要將事件視爲存儲知識的單元,而不管相關人員的名聲如何。

在本文中,我們提出了一種方法和一個開源工具包,可以自動地從英語、西班牙語、意大利語和荷蘭語的新聞文章中構建這種以事件爲中心的知識圖譜(ECKGs)。我們將以事件爲中心的知識圖譜定義爲一個所有信息都與事件相關,知識通過這些事件獲得時間維度的知識圖譜。在傳統的KG中,信息通常以實體爲中心。然後可以找到RDF三元組(主語、謂語、賓語),其中主語和賓語通常是實體,有關事件的任何信息通常都是通過謂詞捕獲的。在ECKGs中,三元組的主題通常是與實體相關並與時間綁定的事件。這將使專家們能夠通過共享事件重建歷史和跨越許多不同的人和組織的網絡。動態趨勢和區域變化可以從實例抽象和時間方面進行推理

考慮以下保時捷公司的例子。在DBpedia中,保時捷公司的條目提供了一些三元組,說明它是什麼類型的公司,它生產什麼樣的汽車,它擁有什麼樣的管理層,等等。它沒有列出交易的歷史、市場事件、管理層的變化,也沒有列出較長時間內的成功和失敗。 2015年10月15日,維基百科對同一家公司的條目用自然語言給出了一段簡短的歷史,包括它是如何在2009年被大衆汽車完全收購,但在2013年通過從卡塔爾控股公司(Qatar Holding)回購10%的股份,在大衆汽車集團內部獲得了100%的投票權。在DBpedia中,這個歷史記錄沒有被表示爲結構化數據。如果我們下一步看看卡塔爾控股公司的維基百科頁面,我們還會發現自然語言文本中的一段簡短歷史,而在相應的DBpedia條目中,它沒有被表示爲結構化數據。有趣的是,卡塔爾控股的歷史提到,它目前仍持有大衆汽車集團和保時捷約17%的股份。報告中沒有提到這10%的股份在2013年被出售回保時捷家族。顯然,這一事件對保時捷SE的歷史意義重大,但對卡塔爾控股歷史而言卻不重要。由於事件是我們ECKG中的中心(類似於許多其他KG中的實體),因此這些買賣事件都表示爲單個事件,其中保時捷損失了資產,而卡塔爾控股則收購了資產,無論兩家公司的看法如何 及其與任何一個的相關性我們讓用戶在時間、地點和參與者周圍對事件進行排序,從而從新聞報道的所有事件的完整表現中重建故事情節或歷史

從表示的角度來看,在我們的ECKGs中,每個事件都是我們知識圖譜的一個節點,並由一個URI唯一標識,在這個URI上可以通過三元組斷言各種屬性。這提供了事件的同質表示,與其他資源中發生的事件不同:例如,在DBpedia中,類似的表示只適用於命名的事件,例如http://dbpedia.org/resource/2009_Japanese_Grand_Prix, 而沒有確定名稱的最小數量的較小事件被這樣的屬性捕獲http://dbpedia.org/property/acquired。

通過利用最先進的自然語言處理(NLP)技術,我們自動提取有關數百萬新聞文章中提到的事件的信息,以及事件參與者,時間和地點的信息。所有提取的內容都在ECKG中以語義網最佳實踐爲基礎的結構化表示形式進行組織。此外,這些信息鏈接到可用的鏈接數據資源(例如,只要有可能,參與事件的實體都鏈接到其DBpedia引用,否則將創建我們知識庫中的實體實例)以及被提取的文本出現的位置。識別出事件並將事件錨定到時間最終會導致長期發展和故事情節的表現,其中事件通過諸如因果關係或併發關係之類的橋樑關係而聯繫起來。這些“歷史”是根據新聞的變化而不是傳統知識圖譜中的靜態屬性和事實重新構造而成的

爲了構建一個ECKG,我們確定了四個主要的信息抽取挑戰:(i)在形式語義ECKG模型中正確地建模文本中信息的表達和表達式的引用值;(ii)根據ECKG數據模型正確地提取和解釋新聞文章中包含的信息;(iii)將提取的信息鏈接到已建立的鏈接數據知識庫(例如,DBpedia);(iv)建立實體和事件在不同來源間不同表示的引用標識,(例如,不同新聞文章中提到的同一實體或事件),可能使用不同的語言。

我們的方法解決了所有四個挑戰,如我們在幾個不同領域構建的四個知識圖譜所示。從文本語料庫中,我們構建了我們的ECKGs,範圍從幾百到數百萬條新聞文章。我們流水線模型中的各個模塊的性能都達到或超過了當前自然語言處理技術的最新水平。我們的ECKGs可以用來回答使用傳統KGs或未經處理的源文檔很難回答的查詢,這是當前信息專業人員的事實標準。據我們所知,我們是第一個從大型非結構化新聞文章文本集合自動構建ECKGs的公司。此外,我們的方法還可以跨語言工作,可以集成從不同語言中提取的ECKGs。

本文從ECKGs的角度,結合了NewsReader項目的一些文章中的貢獻。這些貢獻包括:

  1. 以事件爲中心的知識圖譜的定義(第一節)
  2. ECKGs的正式語義表示,包括對原始源的引用(第3節)
  3. 四種語言中事件知識圖譜的提取方法和開源工具(第4節)
  4. 四個公開可用的ECKG(第5節)
  5. 自動創建的ECKGs質量的第一次評估(第6節)

論文結構如下。在第2節中,我們描述了背景和相關工作。在第3節中,我們將描述如何對提取的信息進行建模。在第4節中,我們將描述我們的流水線模型。在第5節中,我們描述了我們的四個用例,即通用新聞、國際足聯世界盃和全球汽車工業,以及有關空客A380的不同語言的新聞文章。在第6節中,我們報告了用我們的方法自動創建的ECKGs的準確性的第一次評估。在第7節中,我們將介紹使用SynerScope工具的以事件爲中心的信息訪問,並報告ECKGs支持的其他應用程序和調查。在第8節中,我們將討論我們的方法和結論。

2 背景和相關工作

知識圖譜(KG)被廣泛用於增強搜索引擎(例如Google知識圖譜,Microsoft的Satori)提供的結果。 這些KG通常由結構化數據存儲庫提供支持,例如Freebase,DBpedia,Yago和Wikidata(它們本身也是KG),傳統上它們都集中於百科全書的事實和知識。 包含一些信息,例如某位名人的姓名和/或姓氏,出生日期和地點以及她的專業活動。 動態信息,例如新聞中報道的涉及該人的最新事件,通常不會捕獲到這些資源中,因此大多數知識圖譜都會丟失這些信息。

這部分是由於缺乏提供關於事件的結構化內容的資源。事實上,只有少數描述事件的鏈接數據資源可用:Last.FM和EventMedia.Last.FM是的RDF版本的Last.FM網站,包含有關事件,藝術家和用戶的信息。EventMedia是三個公共事件目錄的集合(last.fm,eventful and upcoming)和兩個媒體目錄(flickr、YouTube)。事件用LODE本體表示,而媒體用W3C本體表示,用於媒體資源。它與DBpedia、Freebase、geonames相連,還包含鏈接MusicBrainz, Last.fm, Eventful,Upcoming,and Foursquare的許多相關網頁。在生物醫學研究領域,知識庫例如Bio2RDF和openphacts已經出現。然而,這些資源是從已經結構化的數據中構造的,而我們的ECKGs是從純文本源構建的。我們的方法的不同之處在於它可以處理任何新聞文章,因此不受特定網站或領域的限制。

在過去的幾年中,支持知識圖譜自動構造的研究興趣日益增加,儘管這方面的大部分工作都致力於開發統計模型,以推斷關於圖譜中實體的新事實。一些著名的項目已經被提議從半結構化的資源中提取知識庫,比如Wikipedia,但提取的信息集中於收集實體周圍的事實,而不是事件。在Ontos News Portal,人、組織、地點以及關於這些實體的一些事實都是從新聞文章中自動提取出來的。Ontos News Portal不同於我們的方法,因爲事件提取沒有被明確地處理,並且只有淺層的自然語言處理技術被應用於提取內容,從而導致按主題和實體對新聞故事進行淺層分組。[9]提出了一種圍繞故事組織新聞報道的方法,這意味着事件的發生,但是該過程依賴於新聞報道序列中單詞和短語的共現,而不是深層的自然語言處理(NLP)技術,並且不會產生作爲結果結構的知識庫,但構成故事的一系列新聞文章。EVIN是一種從新聞文章中自動提取命名事件的方法,而在我們的方法中,我們對文本進行了更深入的分析,以提取文本中提到的任何類型的事件,也包括那些沒有獲得正確名稱的事件

從新聞文章中自動提取事實和事件通常是使用更先進的NLP技術來解決的,稱爲開放式信息提取系統,不針對特定類型的事件、實體或領域進行調整。這類系統的例子有TextRunner和NELL。對文本的正確解釋需要檢測事件的提及和在這些事件中起作用的參與者,包括時間和地點的表達。[13]首次證明了語義角色標記(SRL)在信息抽取中識別事件框架的適用性。[14] 根據TimeML[15]的定義,提出了使用語義角色來提取事件及其關係。SRL還被用於從Wikipedia中提取事件[16],構建一個開放的信息抽取器[17],並從Web中挖掘基於事件的常識知識[18]。XLike項目[19]可能是最接近NewsReader項目的。在這個項目中,從幾種語言的新聞文章中提取信息,並轉換成通用的語義表示。然而,與我們的方法不同的是,相似的新聞文章被聚類,從而爲每個獲得的聚類提取一個具有代表性的宏事件。在NewsReader中,我們對事件執行更細粒度的提取,機器讀取每一篇新聞文章,從而識別其中的事件(可能有多個):這使得我們能夠捕捉到一些事件,儘管在某些標題中沒有提到,但對於在專業決策環境中採取明智的行動可能是至關重要的。

已經有了將NLP處理的輸出轉換爲語義Web格式的工具,其中最突出的工具是nlp2rdf和Fred[20]。我們的方法不同於這些工作,因爲在執行高級NLP流水線處理之後,我們執行一個額外的跨文檔跨語言集成步驟,從文本提及轉移到實例。這個額外的步驟超出了上述工具目前提供的功能。我們的方法的另一個好處是,我們的實例表示允許我們在許多不同的源中聚合信息,甚至可以用不同的語言來顯示這些來源之間的互補性和差異性以及所提供信息的來源。

我們的方法將在第4節中介紹,在第3節描述了以事件爲中心的知識的表示模式之後。

3 以事件爲中心的知識圖譜的表示

ECKG中以事件爲中心的數據旨在通過在時間和地點錨定事件並將其與實體鏈接來表示長期發展和故事情節。事實上,下面[21]我們將事件定義爲發生的事情,包括四個部分:

  1. 一個event action component 描述發生了什麼或保持爲真
  2. 一個event time slot,在時間上錨定一個動作,描述某事何時發生或保持真
  3. 一個event location component,指定某個事件發生的位置或保持爲真
  4. 一個participant component,它給出了問題的答案:誰或什麼與某個事件或狀態有關,因某個事件或某個狀態而發生變化,或促成了這種變化。

同時,我們使用的表示模式需要將這些數據與事件的詳細表示聯繫起來,這些事件是對文本進行深入語言分析的結果,積累來自不同來源和時間的關於同一事件的信息。我們認爲世界的變化和對這些變化的新聞報道都是不完全一致的。事件知識通常在許多不同的新聞文章中傳播。隨着時間的推移,人們提供了更多的信息,或者對世界事件的看法也在發生變化。例如,第一篇報道卡塔爾將其10%股權出售給保時捷家族的新聞文章沒有提及轉移的金額。當知道這一點後,它將在稍後的時間點在更新信息的其他文章中發佈。因此,爲了獲得事件的全面描述,我們需要能夠從許多不同的來源收集關於同一事件的所有信息,這些來源相互補充,但也可能相互矛盾。除了確定這些來源報告同一事件(事件標識)外,我們還需要收集新的信息並表示衝突。

考慮到這些目標和文本中信息的廣泛變化,我們爲我們的表示模式建立了以下功能需求:

  1. 它應該在不同文本來源的提及和表達式中定義事件標識。
  2. 它應該定義實體標識和時間地點標識。
  3. 它應該能夠處理互補和衝突的信息(當來源相互矛盾時)。
  4. 它應該提供信息的來源(在來源之間進行比較,並允許用戶評估信息的可靠性)。
  5. 應該很容易將模型與其他結構化知識庫和本體聯繫起來,以識別背景信息並促進推理。
  6. 它應該被正式地定義爲允許推理,例如從實例中抽象出來,歸納爲類別或導出事件的含義。
  7. 我們使用的定義應該足夠通用,以捕捉事件的廣泛變化。
    此外,我們的目標是支持上述功能需求的以下非功能性需求:
  8. 我們使用的表示應該儘可能建立在現有模型的基礎上。
  9. 數據將在帶有Named Graphs擴展的RDF中表示

在本節中,我們將描述如何使用Grounded Annotation Framework(GAF,[23])和Simple Event Model(SEM,[24])來表示與上述需求相關的以事件爲中心的知識圖譜中從文本中提取的信息。GAF和SEM相輔相成:GAF提供了事件和它們被提及的來源之間的鏈接SEM對事件本身、參與者、地點和時間進行了建模。第3.1節解釋了GAF如何提供一種自然的方法來爲滿足前四個功能需求的共指和出處信息建模。在第3.2節中,我們將說明SEM的簡單性和靈活性如何滿足最後三個要求。

第3.1節和第3.2節中的解釋使用以下示例進行說明,包括不同文章在同一日期發表的兩篇文章標題:

  1. 保時捷家族從卡塔爾回購10%的股份(來源:http://www.telegraph.co.uk).
  2. 卡塔爾控股公司向創始家族出售10%保時捷的股份(來源http://www.english.alarabiya.net).

圖1提供了一個簡化的說明,說明如何在我們的模型中解釋這些標題。圖2提供了提供相同信息的RDF三元組的一部分。圖1和2表示對句子進行完美分析的結果,旨在說明我們模型的結構。第4節將討論這種完美解釋與實際輸出之間的差異。
在這裏插入圖片描述
在這裏插入圖片描述在這裏插入圖片描述

3.1 Grounded Annotation Framework

ECKG模型的主要特性之一是,我們在代表事件和世界上其他實體(可能存在或不存在以及可能發生或未發生)的實例與提及(在我們的案例中表示引用這些事件和實體的表達式)之間進行了清晰區分。 Grounded Annotation Framework(GAF,[23])允許我們通過gaf:denotedBy關係指出哪些提及是指特定實例。 我們將使用我們的示例來解釋區別。

我們的兩個例句表達了相同的事件:保時捷(或保時捷家族)從卡塔爾購買保時捷股份。該事件由圖1中標記爲#Ev2的實例表示。示例1中的buy和示例2中的sell都引用了此事件。這表示爲gaf:denotedBy表示從實例#Ev2到源文本中的單詞buysell。圖2第13行中的三元組顯示了這種關係是如何用RDF表示的。通過GAF將兩個提及鏈接到同一個實例直接反映了它們都引用了同一個事物,即GAF提供了一種自然的方法來建模共指[23]。同樣的原則也適用於活動的參與者和時間。這個gaf:denotedBy表示爲了簡化,已經從圖像中省略了參與者和時間,但是在圖2中的RDF示例中可以找到對應的三元組。16行和17行鏈接dbpedia:Porsche到文本中的標籤和單詞提及,第20行和第21行提供了10%股權的信息,第24和25行爲卡塔爾控股公司,第29和30行表示事件發生的時間在哪裏提到。查詢包含URI的三元組,而不管它是表示事件還是其他實體,因此提供了關於在語料庫中標識的這個實體的所有信息的彙總概述。

因爲我們還想準確地表示每個消息源對事件的描述,所以我們將事件與其參與者之間確定的關係鏈接回源。這比將實體鏈接到一個提及稍微複雜一些,因爲(1)我們必須將三元組鏈接回其源,而不是一個簡單的URI;(2)概念之間的關係通常由單詞之間的關係而不是簡單的表達式來表示。因此,我們將標識符分配給我們在文本中識別的單詞之間的語言關係。gaf:denotedBy關係指出文本中的哪種語言關係表達了兩個實例之間的語義關係。在RDF中,有幾種方法可以對三元組進行聲明。在我們的模型中,我們使用RDF1.1[25]中引入的named graphs。

語句基於共享出處放置在同一個named graph中。表示事件和參與者之間關係的語句通常會以自己的命名圖結束,因爲特定的語言關係通常只表示事件和參與者之間的一種關係。在我們的示例中也是如此:購買事件與其參與者之間的關係都是在單獨的命名圖中,其中只包含有關這些特定關係的信息。舉例來說,dbpedia:Porsche#Ev2表示命名圖,該圖也由圖2中第39-44行中的三元組描述。保時捷與該事件之間的關係用第(1)句中“buy”和“Porsche family”之間以及第2句中“sell”和“founding family”之間的兩種語言關係表示,分別標記爲t#char=0,19a#char=14,61gaf:denotedBy將命名圖連接到這些提及。在圖2的第63和64行中可以找到RDF中的等效信息。

GAF允許我們滿足表示模式的前四個要求,即定義事件、實體、時間和地點之間的標識(通過引用同一URI的替代提及),它允許我們處理互補和衝突的信息(信息在實例級別聚合,但在提及級別上進行了適當的分離),並提供了出處信息(它將信息鏈接回提到它們的新聞文章)

3.2 Simple Event Model

上一小節解釋了我們如何滿足表示模式的前四個功能需求。其餘的需求與我們如何在模型的實例級別表示事件及其關係有關。

我們使用Simple Event Model(SEM[24])的擴展版本(SEM+,如[27]),作爲事件建模的基礎。SEM是最靈活的事件模型之一,它很容易適應不同的領域,因此它是適合我們目的的候選模型。SEM提供了一個通用框架來表示誰在何時何地做了什麼,滿足了我們的表示模式的第五個要求。這些一般關係與更明確的關係是相容的。因此,我們可以很容易地用滿足需求6的其他本體的信息來擴展SEM表示。此外,我們還可以使複雜事件與其子事件之間的關係明確化,並表明因果關係。事件之間的時間關係通過它們的關聯時間來建模。

我們的流水線模型從文本中提取的信息比SEM+提供的通用模型要詳細得多。我們的NLP管道,如第4節所述,還將事件鏈接到FrameNet框架[28]和事件和情境本體(ESO)[29]中定義的類。FrameNet以框架語義理論爲基礎,對事件及其參與者進行描述。在我們的例子中,活動與其參與者之間的FrameNet關係表明,保時捷是買家,卡塔爾控股是賣家,而SEM沒有區分每個參與者所扮演的確切角色。經理股票期權關係模型反映了事件發生前後的情況差異。在我們的例子中,卡塔爾控股公司是所有者_1,即在出售之前的所有者。保時捷是所有者_2,它是指事件發生後的所有者。ESO爲所有權發生變化的所有事件(例如偷竊、購買、捐贈)提供此信息。如果買賣事件不是同一事件,或者一個消息來源聲稱某物被購買,另一個來源聲稱它被盜,ESO允許我們推斷,在這兩種情況下,一個對象開始於所有者A,結束於所有者B。我們在RDF中的形式化表示允許我們將信息鏈接到本體論,例如滿足第七個需求的ESO。

在下一節中,我們將描述在文本中識別事件和參與者提及的過程,以及我們如何確定哪些提及指向同一實例。

4 方法和工具

圖3顯示了我們的處理流程的示意圖。 我們的數據處理方法有兩個主要步驟:文檔級的信息抽取跨文檔的事件共指。 文檔信息提取步驟由自然語言處理(NLP)管道執行,該管道從文本中提取事件,人物和位置的提及,並解析時間表達式。 文檔級處理爲每個提及生成解釋,並將結果存儲在所謂的Natural Language Processing Annotation Format(NAF,23 [30])中每個新聞文章都表示爲單個NAF文件。跨文檔事件共指處理將讀取所有NAF文件以獲得新聞流,並將提及內容明確化爲實例,並通過GAF鏈接有效地在文檔(NLP)和實例(SW)級別之間形成橋樑。 根據GAF和SEM模式,第二步的輸出爲RDF-TRiG格式,如第3節所述。

在本節的剩餘部分中,我們將在我們的管道中解釋這些步驟,並在結束時詳細介紹我們的實現。
在這裏插入圖片描述

4.1 文檔級信息抽取

信息提取管道從報紙文章的原始文本中提取實體和事件[31]。處理鏈由幾個執行所需步驟的NLP模塊組成,如下所述。整個系統包括英語、西班牙語、荷蘭語和意大利語的管道。顯然,每一個管道都依賴於一組非常不同的語言模塊,這些模塊適應於在一種語言中執行特定的任務。目前,英語管道由15個模塊組成,西班牙管道集成11個模塊,荷蘭管道由14個模塊組成,意大利管道由來自TextPro的11個模塊組成。

這些模塊採用了一種簡單而衆所周知的以數據爲中心的體系結構,其中每個模塊只要讀取並生成所需的數據格式,就可以與另一個模塊互換。這種以數據爲中心的方法依賴於NAF:一種表示語言註釋的交換格式。NAF是從KYOTO Annotation Framework(KAF,[32])演變而來的,它符合Linguistic Annotation Format(LAF,[33])。它是一種在多個層次上表示語言分析的獨立分層格式。爲了便於處理和跟蹤系統的出處,我們使用NAF格式在原始文本中標記標題和發佈日期等元數據。此外,管道中的每個模塊都向報頭添加一個元素,表示所使用模塊的版本、時間戳以及對從文本中提取的信息進行編碼的層。

由於英語是本文的重點,我們在這裏描述英語管道。關於這條管道以及西班牙、荷蘭和意大利管道的更多細節可以在[34]中找到。信息抽取處理從tokenizer開始,它將文本分成句子和單詞。Part-of-Speech tagger將類型信息添加到每個單詞,例如,指示它是名詞還是動詞。Multiwords tagger檢測WordNet中的多字表達式,部分地解決了歧義。這些模塊都是基於ixapipes[35]。Word Sense Disambiguation模塊根據上下文對單詞的不同意義進行排序。然後,Named Entity Recognizer(NER)檢測命名實體並嘗試將它們分類爲人名、地名、機構名或其他名稱。Named Entity Disambiguation(NED)模塊嘗試根據知識庫(在本例中爲DBpedia)解析命名實體,以便將它們鏈接到實體實例。該模塊之後是Opinion Miner,它用於檢測意見(對某事有積極或消極的情緒),意見持有者(有意見的人)和意見目標(關於什麼的意見)。 Syntactic Parser的目的是檢測句子的句法結構,例如子句的主語和賓語。Semantic Role Labeler(SRL)檢測謂詞的語義參數,例如,who is the agent in How far can you go with a Land Rover?。Nominal Coreference ResolutionEvent Coreference Resolution模塊分別計算文檔中哪些實體和事件是相同的。然後,Time and Date Recognizer檢測時間表達式,以便通過Temporal Relation Detection模塊將事件組織在時間軸上,並通過Causal Relation Detection模塊進行因果鏈接。最後,使用Factuality Detection來確定哪些事件已經發生或可能發生,哪些事件被否認或以推測的方式提及。

除了基於第三方工具的SRL和NED模塊之外,這些NLP模塊都是在NewsReader項目中開發的。我們對這些工具的修改是爲了使它們與NAF format一起工作。SRL模塊基於MATE工具[37],這是一個用於依賴解析和語義角色標記的最新系統。NED模塊基於DBpedia Spotlight[38],一個通用的wikification系統。我們對DBpedia Spotlight進行了調整,只考慮命名實體的引用,並配置了該工具以使用整個文檔作爲消歧上下文。下面將更詳細地描述這兩個模塊。

對於NLP模塊的評估,我們提供了一個有助於自動化評估過程並確保結果再現性的軟件包。 NLP模塊已在標準基準數據集和新聞文章(基於Wikinews)上手動註釋的黃金標準上進行了評估,其性能可與或超過最新水平。對四種語言中所有模塊的評估的詳細分析不在本文的討論範圍之內,評估程序和結果的完整描述見[39]。在本節的其餘部分中,我們將重點介紹NER、NED和SRL任務的性能,因爲它們是從文本中提取事件和參與者的關鍵組件。 我們將報告他們的評估數字,並根據第3節中的例句詳細說明他們的表現,即“卡塔爾控股公司向創始家族出售10%的保時捷股份”和“保時捷家族從卡塔爾回購10%的股份”。這兩句話說明了如何以不同的方式打包相同的事件數據,這對我們的軟件檢測身份是一個挑戰。當執行得很好時,處理應該會導致兩者都有一個RDF表示。

命名實體識別與消歧
在這兩個示例中,Named Entity Recognizer正確地將卡塔爾控股、保時捷和卡塔爾歸類爲組織,但Named Entity Disambiguation模塊無法正確消除實體提及卡塔爾的歧義。在第一個示例中,它正確地將實體提到鏈接到dbpedia中的實體http://dbpedia.org/resource/Qatar_Investment_Authority (confidence 1.0) )和http://dbpedia.org/resource/Porsche (confidence 0.99)。
在這裏插入圖片描述
在這裏插入圖片描述
在第二個示例中,它正確地消除了Porsche實體與http://dbpedia.org/resource/Porsche的歧義。但是,雖然可以理解,但它未能將卡塔爾與卡塔爾投資管理局聯繫起來,也沒有將其與http://dbpedia.
org/resource/Qatar 鏈接起來。
在這裏插入圖片描述
在標準基準數據集(conll2003[40])以及在NewsReader中創建的特定領域語料庫上評估我們的命名實體識別器時,我們的系統在CoNLL 2003數據集上的F1score爲90.2,NewsReader語料庫的F1score爲68.67,優於當前最先進的系統,如[41]和[42]。

對於命名實體消歧,我們根據CoNLL/AIDA[43]和TAC 2011基準以及我們的NewsReader語料庫評估了我們的系統。在CoNLL/AIDA上,我們實現了79.67的精確度和75.94的召回率。在tac2010上,我們實現了79.77的精確度和60.68的召回率。在NewsReader語料庫中,我們得到了68.58的f1分數。

語義角色標記
Semantic Role Labeler 分別用PropBank概念[44]和謂詞sell.01和buy.01註釋事件sell和buy。除了這些PropBank概念,模塊還可以添加更多的類,這些類可以在謂詞矩陣(v1.1)[45]中使用。謂詞矩陣是一種新的詞彙資源,它集成了多種謂詞信息源,包括FrameNet[28]、VerbNet[46]、PropBank[44]、WordNet[47]和ESO[29]。儘管這個資源還遠未完成,但它包含的對齊比SemLink[48]多得多。

謂詞矩陣中概念的豐富提供了跨不同謂詞模型和不同語言的語義互操作性。例如,在圖4中第一個句子的表示中,謂詞矩陣將sell.01指定給PropBank中提到的謂詞,以及對其他來源的外部引用,例如VerbNet class give-13.1和subclass give-13.1-1,the FrameNet frame Commerce_sell, the Word-
Net synset ili-30-02244956-v and ili-30-02242464-v and the ESO type Selling.。根據語義角色標記系統,Qatar Holding是A0的銷售事件。根據謂詞矩陣,此參數對應於VerbNet role Agent、FrameNet Seller和ESO possession_owner_1。同樣,保時捷10%的股份是A1,而創始家族則是出售事件的A2。在謂詞矩陣中,第一個角色對應於 VerbNet Theme或FrameNet Goods,第二個角色對應於VerbNet Recipient、FrameNet Buyer或ESO possession_owner_2。
在這裏插入圖片描述
在這裏插入圖片描述
在圖5中,Semantic Role Labeler將buy.01分配給來自PropBank的謂詞“buys”,以及對VerbNet class get-13.5.1、the FrameNet frame Commerce_buy, the WordNet synset ili-30-02207206-v and ili-30-02646757-v and the ESO type Buying的外部引用。它也將Porsche family詮釋爲購買活動的A0級。根據謂詞矩陣,此參數對應於 VerbNet role Agent、FrameNet Buying和ESO pos-session_owner_2。同樣,10%的股份是A1,卡塔爾的A2是收購事件。在謂詞矩陣中,第一個角色對應於VerbNet Theme或FrameNet Goods,第二個角色對應於VerbNet Source和FrameNet Means。
在這裏插入圖片描述
在這裏插入圖片描述
在這種情況下,語義角色標記器能夠從兩個截然不同的句子中提取相似的語義表示。在這兩種情況下,目前的英語管道已經非常接近於完全認識到從兩種不同角度表達的同一事件。也就是說,保時捷家族從卡塔爾購買保時捷10%的股份。這個表示中的元素組合在一起形成RDF中的語義表示,我們將在下一節中討論。這仍然是一個挑戰,因爲角色的標記、謂詞的含義以及角色和實體的跨度仍然需要以某種方式匹配。

在CoNLL2009[49]標準基準數據集上評估語義角色標籤器時,我們得到的f1分數爲84.74。

4.2 跨文檔事件共指

NLP對文檔的處理產生對以NAF表示的單個文本源(即文檔)的解釋。 文本被視爲由各種模塊描述的token序列。 在這樣的序列中,可以多次提及相同的事件和相同的實體。 關於每個提及的信息可能是不完整的:一個句子可能提及事件的時間和地點,而另一句話可能指明所涉及的參與者。 如果我們考慮大量的文本來源,我們還會在這些來源上找到許多相互重疊且相互補充的引用:今天的新聞提到了受害者,明天的新聞揭示了是誰做的。 爲了從NAF中的這些基於提及的表示形式轉變爲SEM中的實例表示形式,我們經歷瞭解決跨提及共指的許多步驟(有關方法的詳細說明,請參見[50])。

  • 文檔內共指
    - 實體共指
    - 基於相同引理或WordNet相似度得分的事件共指
  • 跨文檔共指
    - 在同一時間約束內具有相同全局類型的聚類事件
    - 基於參與者和地點重疊的同一集羣內事件的事件共指

NLP模塊已經在文本中標識實體,並在可能的情況下爲每個實體分配一個URI。實體共指模塊使用可用信息來確定哪些實體引用同一實例,但也解析回指表達式。同樣地,我們可以找到實體的參與者關係,不僅在直接引用實體名稱的情況下,而且當實體以不同的方式被提及時,也可以找到實體的參與者關係。每個實體URI用於表示唯一的實體實例。如果這些實體與共指集重疊,那麼在同指集中的所有提及都將作爲引用添加到實體實例中。 如果我們有一個唯一的URI(例如dbpedia.org/resource/Porsche),它將用於標識實體,否則,我們將從引用該實體的單詞(例如,data/cars/entities/Richard_Aboulafia)中生成一個URI。 未被檢測爲實體但仍發揮重要作用的短語被表示爲所謂的非實體。URI也是基於表達式的,並與實體區分開來,例如。nwr:data/cars/non-entities/10+%25+stake+in+Porsche。跨文檔的實體實例可以共享相同的URI,而不管它們是基於外部LOD資源還是通過新生成的URI。它們在RDF-TRiG中得到一個單一的表示gaf:denotedBy:由鏈接表示去 NAF文件裏提到他們的所有地方。對於每個實例,我們還提供由NLP模塊檢測到的表達式作爲標籤。

在本小節的其餘部分中,我們將展示如何生成Porsche–Qatar示例的不同實例表示。

實體鏈接
在這裏插入圖片描述
第12-13行表明,對保時捷的不同提及已通過gaf:denoted合併成一個單一的表示形式:通過鏈接到兩個來源的字符偏移,而卡塔爾和卡塔爾控股(第8-9和16-17行)由於實體鏈接恢復的不同DBpedia URI未被合併。通過URI,我們可以訪問DBpedia中可用於這些實體的任何背景知識。 此信息在RDF-TRiG表示中不再重複。 實例事件中涉及的其他概念可以表示爲所謂的non-entities,,其中該軟件無法將 founding family映射到Porsche family或Porsche:
在這裏插入圖片描述
請注意,我們創建了一個域(nwr:data/cars/non-entities)對於處理的每個數據集。這意味着相似的短語可以成爲跨資源的核心,但我們不能進一步解釋這些概念。因此,我們無法區分10%的股權。我們還發現,描述上的微小差異(例如10 % stakeversus10pc)已經導致了不匹配。對於這些概念,除了標籤,我們沒有任何進一步的知識。進一步解釋這些概念仍然是一個挑戰,我們打算在今後的工作中處理這些概念。

日期和時間
NAF中的文檔創建時間和任何規範化的時間表達式在RDF TRiG中使用owl-time詞彙表示爲實例:
在這裏插入圖片描述
在這些示例中,第7行的dct表示文檔創建時間,第10行和第16行的dctm表示源中提及的文檔創建時間。我們在這裏看到,我們兩個例子的文檔創建事件都獲得了一個不同的URI,但是引用了相同的URI時間:time:inDateTime。此外,我們還展示了一個在Wikinews文章中出現的時間表達式月份的表示,該表達式已經被規範化爲另一個時間:time:inDateTime值:200802。這個時間:time:inDateTime值根據owl時間得到單獨的表示,以便隨着時間的推移進行推理。

事件鏈接
至於實體和時間,我們需要爲事件創建實例。但是,對於事件,我們(通常)沒有外部URI。事件是無形的,所以在事件之間建立標識是一項困難的任務。我們採用的方法是以事件的組成爲出發點[51]。組合性原則規定,事件不僅由行爲(或關係或屬性)定義,還由時間、地點和參與者定義。爲此,我們使用一種算法來比較所有這些屬性的事件

我們首先在同一個文檔中跨事件建立共指關係。以語義角色標籤層的謂詞爲出發點,將WordNet中所有引理相同或相似度得分高於2.0[53]的謂詞鏈接到同一個共指集中。這表示同一文檔中事件的實例。我們假設所有參與者信息和時間錨點分佈在文檔中對同一事件的不同提及。然後,我們通過聚合來自同一源中所有相關提及的參與者和時間表達式來創建所謂的複合事件對象(CEO)。事件的參與者基於相同來源中檢測到的實體的RDF實例表示,因此在整個文檔中也可以有不同的提及。它們在文檔中的提及與謂詞的角色範圍相匹配,以確定實體在事件中扮演了什麼角色。最終的CEO是SEM對象,具有事件、參與實體(和非實體)及其時間錨定的RDF實例表示。我們根據時間錨定將每個NAF文件的CEO存儲在時間描述文件夾中。因此,單個NAF文件可以具有存儲在不同的時間描述文件夾中的多個CEO。請注意,沒有顯式規範化時間錨定的事件將鏈接到文檔創建時間。

在第二步中,我們比較來自同一個時間描述文件夾的所有CEO,以建立跨文檔的共指。我們已經知道這些事件有相同的時間錨。根據以下標準匹配CEO:

  1. 兩個CEO的動作或過程應該具有相同的引理作爲標籤,或者具有相同的WordNet引用作爲子類關係;
  2. 它們應該至少共享一個參與者參與者,我們通過參與者的URI匹配參與者;
  3. 如果兩個CEO都有一個place-participant,那麼至少一個place-participant的uri應該匹配;

CEOs的匹配可以很容易地進行調整,以獲得更寬鬆或更嚴格的匹配。例如,我們要求具有演講者角色的演員參與者應該匹配的言語行爲類型的事件,而對於事件的跨語言比較,我們允許事件的WordNet寬鬆匹配而不是引理匹配。

如果存在匹配,我們將一個CEO的信息合併到另一個CEO的信息中,其中我們保留第一個CEO的唯一URI作爲事件實例的標識符。當我們合併信息時,參與者和時間關係作爲主題的共享URI。由於一個CEO可能與另一個CEO存在部分差異,因此我們彙總了CEO之間的信息。當它們包含相同的信息時,我們只更新對關係的提及。我們遞歸地迭代所有需要比較的CEO,直到沒有新的匹配出現。這就導致了CEO之間的鏈,因爲CEO的合併爲另一個CEO創造了條件。

對於前面討論的buy/sell示例,我們的系統不生成匹配項,因爲標籤和WordNet語法集都不同。同樣,我們生成以下事件的實例表示:
在這裏插入圖片描述
該表示與實體表示類似,只是對於每個事件實例,我們生成它的URI,並根據我們採用的本體的類來鍵入它,以便對事件進行推理。注意,更抽象的sell和buy匹配(例如通過FrameNet層次結構)將導致合併。

下一個例子來自automotive語料庫,該示例顯示系統將通過get、purchase和buy的提及表示的更接近的時間合併到單個事件實例中(第9行),並通過gaf:denotedBy謂詞在兩個文檔中進行了多次提及(第12行):
在這裏插入圖片描述一旦事件的identity被建立,我們輸出事件實例和參與者之間、事件實例及其時間錨的關係。三元組利用從NAF中選擇的角色關係作爲屬性,事件實例作爲主題,實體實例作爲對象。這些角色代表了不同的抽象層次(SEM–PropBank–ESO–FrameNet),可以在推理中利用這些抽象級別。例如,第11-42行對應於圖4中給出的示例,其中在第18行卡塔爾控股被標識爲具有A0角色,這裏在第21行用三元組來描述 <http://english.alarabiya.net#ev1> nwr:ontologies/propbank/A0 dbp:/Qatar_Investment_Authority
在這裏插入圖片描述
在這裏插入圖片描述
該表示方法表明,實體和事件的識別對於我們能夠實現的表示方法的密度至關重要。遵循更嚴格的方法會導致與實例提及更接近的不同表示,而更寬鬆的方法將導致實例及其關係的合併和聚合。在我們的模塊中,我們可以改變爲每個事件組件獲得的相似程度和方法。對於事件提及,我們可以選擇用於引用的單詞的重疊、WordNet語法集的重疊、WordNet圖中synset的相似性、根據使用的其他本體(FrameNet、ESO)的相似性,或者單詞嵌入之間的相似性。我們可以使用這些方法的組合,並改變閾值。在參與者的例子中,我們可以使用單詞重疊、URI標識以及位置或時間表達式之間的meronymy關係。此外,API允許您選擇需要匹配的事件-參與者關係的數量和類型。需要非常豐富和特定的FrameNet角色來在CEO之間進行匹配,這將產生高精度的輸出,但是合併很少。我們正在通過經驗和應用程序驅動的評估來研究最佳粒度級別。最佳設置可能因不同類型的文本而有所不同(在表達上或多或少有差異,在隱喻性方面則更少或更多)

表示方法的另一個重要方面是關係都嵌入到命名圖中,請參見第3節。通過爲所述關係創建uri,可以表達關係的各種屬性。例如,這用於表示關係的出處,如下所示,其中系統生成了GAF鏈接,這些鏈接指向由命名圖標識的關係:
在這裏插入圖片描述
除了這些GAF鏈接,系統還可以生成與來源作者和所有者的來源鏈接。
文本解釋的RDF表示被加載到KnowledgeStore中(見第4.4節),它允許存儲和查詢ECKG。

4.3 跨語言事件抽取

如前幾小節所述,我們的處理結果是實體實例和規範化時間表達式的語言中立表示。例如,荷蘭語和西班牙語的實體鏈接爲特定語言的DBpedia資源和英語DBpedia資源生成uri。此外,不同語言之間對謂詞分配的角色也進行了協調。唯一剩下的就是事件的表現。爲此,我們可以依賴於在英語、荷蘭語和西班牙語中共享的WordNet語法集標識符。因此,我們的軟件可以提取來自英語、西班牙語和荷蘭語文本的NAF文件,並執行與第4.2節所述的跨語言事件提取相同的分析。在這種情況下,具有相同時間錨的事件將與其WordNet語法集相匹配,並且如果有足夠的匹配,則合併參與者uri。下面,我們展示一個來自Wikinews數據集的例子,我們爲其翻譯了英文文章,並由相應的語言處理器處理它們。然後,我們將跨文檔解釋應用於NAF文件的原始英語文本和荷蘭語和西班牙語翻譯,以生成統一的RDF輸出。
在這裏插入圖片描述
在本例中,第6行顯示了來自不同語言的事件提及標籤,以及gaf:由鏈接表示第7行顯示不同的提及來源。同樣,參與者和地點也被合併,如第9行和第10行所示。

4.4 實現

從大量文本(如數百萬條新聞文章)中構建ECKGs需要設計能夠在大型計算機集羣上運行分佈式程序的解決方案。爲了及時處理所需數量的新聞文章,我們設計並實現了一個NLP管道,該管道通過並行化來增加文檔數量。

處理鏈將運行並部署到一個機器集羣中。當前的實現依賴於包含分析文檔所需的所有模塊的虛擬機(VM)。虛擬化是一種廣泛的實踐,它可以提高服務器的利用率並解決各種依賴關係和安裝要求。此外,它是雲計算解決方案的“事實”標準,它提供了在商品服務器上安裝許多虛擬機副本的可能性。在我們的體系結構中,所有NLP模塊及其依賴項都被安裝到單個VM中,然後將其複製並部署到計算機集羣中。

我們使用Apache Storm33集成和編排處理鏈的NLP模塊。Storm是一個開源、通用、分佈式、可擴展和部分容錯的平臺,用於開發和運行處理連續數據流的分佈式程序。Storm允許使用普通硬件設置具有高可用性的可擴展羣集,並通過支持本地內存讀取和避免磁盤I/O瓶頸來最小化延遲。Storm的主要抽象結構是拓撲結構,它描述了每個消息經過的處理節點。拓撲被表示爲一個圖,其中節點處理組件,而邊表示它們之間發送的消息。

文檔被髮送到一個包含所有NLP處理模塊的VM,這些處理模塊一個接一個地執行。因此,對每個文檔的完整分析都是在單個VM中執行的。每個模塊接收一個NAF文檔,在其上創建註釋,並將豐富的NAF傳遞給下一個模塊。部分分析的NAF文檔使用NoSQL數據庫(mongoDB35)存儲和分佈在集羣機器之間。包含我們的管道的VM的當前版本可從http://bit.ly/1hhvvvc。所有模塊均可通過https://github.com/newsreader。我們還開發了一組腳本,目的是爲分佈式NLP處理自動創建一個完全工作的集羣。我們稱這些腳本爲“從頭開始的VM”,因爲它們創建和配置所需的虛擬機。這些腳本可以從github存儲庫獲得https://github.com/ixa-ehu/vmc-from-scratch。

源新聞、NAF文件和轉換爲SEM後產生的RDF內容都會上載到KnowledgeStore36[54,55],這是一個可擴展、容錯和語義化的基於Web的存儲系統,由於新聞、NAF文檔的結構化內容和相應的RDF實體之間的緊密鏈接,該存儲系統和facts,可以聯合存儲、管理、檢索和語義查詢結構化和非結構化內容。我們在大約11天內處理了126萬篇關於全球汽車工業的文章(見第5.3節)。跨文件參考和轉換成掃描電鏡9天。
下一節將介紹結果ECKG。

5 知識圖譜

在本節中,我們將介紹使用各種文本源生成的四種不同的以事件爲中心的知識圖。表1列出了每個ECKG的總體統計數據。在本節的剩餘部分中,將通過每個ECKG的一組查詢來描述背後的動機、特性和可能的用途。選擇這些查詢是爲了說明與實體或文檔中心方法相比,以事件爲中心的方法的優勢。請注意,每個ECKG還包含從DBpedia獲得的RDF三元組的子集:該內容用背景知識事實(例如實體類型、關於實體的一般事實)補充從新聞文章中自動提取的信息,以便在應用程序中利用ECKG。

5.1 Wikinews

Wikinews是由維基媒體基金會運營和支持的免費多語言開放新聞源。我們選擇使用這個源代碼,因爲它使我們能夠跨不同語言鏈接實體和事件,以及它的廣泛覆蓋範圍。對於英語,我們從2014年1月16日開始清理維基新聞垃圾場。這就產生了18510篇新聞文章,然後我們使用第4節中描述的管道處理這些文章。提取內容的摘要見表1。原始新聞語料庫、中間處理結果以及由此提取的ECKG可以下載或通過專門的知識庫安裝直接訪問。

有一件事很難在原始文本或像DBpedia這樣的KGs中查詢,但在ECKG中可以很容易地查詢到的是:哪些實體最常參與巴拉克奧巴馬總統也參與的活動?在這裏,我們發現,在我們的語料庫中,巴拉克奧巴馬和另一個實體共被提及59次,希拉里·羅德姆·克林頓41次,民主黨31次,美國24次,共和黨21次(見圖6)。這些信息對於對一個域中不同參與者之間的交互感興趣的信息專家是有用的。

總的來說,巴拉克·奧巴馬參與了語料庫中提到的1292個事件:他主要參與聲明活動,例如發表演講(235次)、文本創作(例如簽署法案(127次)和請求或要求某事(66次)。

我們在數據集中發現的另一個有趣的例子是提到了由甲殼蟲樂隊創建的多媒體公司Apple Corps Ltd,它在對計算機公司Apple Inc.的訴訟中敗訴。這兩個提到的蘋果公司被正確地消除了歧義,並與我們數據集中的適當的DBpedia資源相關聯。關於該特定事件的ECKG內容的摘錄如圖7所示(通過公共可用的KnowledgeStore安裝訪問)。

5.2 FIFA world cup

5.3 Global automotive industry

5.4 Airbus corpus

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章