信息抽取在知識圖譜構建中的實踐與應用

編者按
坦率地講,各行各業對如何落地知識圖譜這個問題,或多或少都心存一絲疑惑。人類知識和機器可理解的知識有什麼區別?知識圖譜如何突破自身侷限性,從“萬事通”轉爲“科學家”?百分點認知智能實驗室在實踐探索中,通過利用自然語言處理技術獲取結構化的信息抽取能力,探索出了一套行業知識圖譜構建流程方法。尤其是基於深度遷移學習,幫助構建法律百科詞條、公安文本知識圖譜等行業項目中,在實體抽取、關係抽取、事件抽取等方面都取得了理想的實踐效果。本文將從概念辨析、技術路徑、實踐總結,由虛到實、由淺入深引導大家理性看待知識圖譜技術的能與不能,以更好地在實踐中運籌帷幄。

本文作者:陳肇江、王勳、陳旭、吳永科、蘇海波

信息抽取、知識

圖譜及自然語言處理

1. 信息抽取的內涵與外延

新基建的大潮湧中,人工智能、大數據與5G應用是人們競相追逐的燈塔,在描繪數字經濟時代宏偉藍圖的時候,知識圖譜與自然語言處理成爲追捧的香餑餑。

如何從海量的文本或網頁的原始數據中提取有價值的信息是行業知識圖譜構建的關鍵因素,信息抽取(Information Extraction,IE)作爲自然語言處理技術的任務,該任務的重點在於從機器可讀取的非結構化或半結構化的文本中抽取信息,最終以結構化的形式進行描述,使信息可以存入數據庫以供進一步處理。

在下文探討信息抽取技術之前,首先釐清幾個重要概念的內涵與外延,方便讀者更加清晰地理解本文的意圖。

1.1 知識與知識圖譜:人類知識和機器可理解的知識有什麼區別?

哲學家柏拉圖把知識定義爲確證的真信念(Justified True Belief),滿足該定義的知識具有三個要素:合理性(Justified)、真實性(True)、被相信(Believed)[1]。柏拉圖三要素原則是哲學界對於知識定義的主流觀點,即人類的知識是通過觀察、學習和思考有關客觀世界的各種現象而獲得和總結出的所有事實(Facts)、概念(Concepts)、規則或原則(Rules&Principles)的集合。人類發明了各種手段來描述、表示和傳承知識,如自然語言、繪畫、音樂、數學語言、物理模型、化學公式等,可見對於客觀世界規律的知識化描述對於人類社會發展的重要性[2]

知識圖譜(Knowledge Graph)以結構化的形式描述客觀世界中概念、實體及其之間的關係,將互聯網的信息表達成更接近人類認知世界的形式,提供了一種更好地組織、管理和理解互聯網海量信息的能力[3]。知識圖譜本質上是以三元組結構(主語-謂語-賓語)表示實體及實體關係的語義網絡,谷歌公司於2012年重新提出了知識圖譜的概念以保持其在智能搜索引擎的領先地位。時任谷歌副總裁阿密特·辛格(Amit Singhal)指出知識圖譜是“Things,Not Strings”,在此之前搜索引擎是通過爬取網頁並基於關鍵詞返回網頁排序結果,而基於知識圖譜得到的是與關鍵詞有關聯的表示真實世界中的實體的圖文描述信息。

在行業的實踐中之所以對知識圖譜期望太高,是因爲人類知識和知識圖譜這兩個概念容易引起歧義:人類知識包括原理、技能等高級知識,而知識圖譜源自語義網絡、本體論,藉助RDF三元組及模式(schema)的形式構建計算機可理解、可計算的實體及實體之間關聯的事實性知識庫,即 圖譜可形象地稱作“萬事通”而非“科學家”

1.2 知識獲取、知識抽取與信息抽取的區別與聯繫

行業用戶往往希望,結構化的知識靠AI自動化構建,不用介入任何人工,即可產生低成本、高質量的知識,然而這些是不切實際的幻想。因此,這裏要正本清源,辨析知識圖譜的常規的獲取知識方式。

知識獲取是組織從某種知識源中總結和抽取有價值的知識的活動(GB/T23703定義)[4],我們認爲,根據該定義,知識獲取強調的是獲取知識的一種活動,包括從結構化、半結構化和非結構化的信息資源中提取出計算機可理解和計算的結構化數據,以供進一步分析和利用。因此,其範圍應包括知識抽取和信息抽取。

知識抽取 ,即從不同來源、不同結構的數據中進行知識提取,形成知識(結構化數據)存入到知識圖譜[2]信息抽取 ,即從自然語言文本中抽取指定類型的實體、關係、事件等事實信息,並形成結構化數據輸出的文本處理技術[5]

數據、信息和知識的關係 爲:信息是存在於數據(數字、文本、圖像等)中的反映客觀世界的實體,通過提煉、加工建立實體之間的聯繫形成了知識,知識是對世界客觀規律的歸納和總結。因此,知識抽取在方法上包括了信息抽取和ETL(數據倉庫),但方法不侷限於結構化信息的生成或關係數據庫模式(schema)的直接轉換,還需藉助本體庫或自動方法歸納新的模式。

在本文中,知識抽取和信息抽取的內涵與外延近乎等價,兩者都是應用自然語言技術從文本獲取實體、關係、屬性和事件知識。

圖1 知識相關概念的包含關係

總的來說,知識、知識圖譜、知識獲取、知識抽取、信息抽取這些概念逐層遞進,以一張韋恩圖表示(如圖1所示):知識的表示、獲取和處理是人類特有的能力,知識圖譜架起了一座基於人類知識和計算機獲取認知能力的橋樑,知識獲取涵蓋了產生機器可理解的知識的活動,知識抽取強調通過數據模式組織三元組知識,而信息抽取是藉助自然語言處理技術生產知識的能力。信息抽取是知識工程、大數據、機器學習、自然語言處理的交叉技術。下文將重點探討信息抽取在知識圖譜的應用與實踐。

2. 融合信息抽取的知識圖譜構建範式

近年來,自然語言處理技術的飛速發展尤其是深度遷移學習技術給方興未艾的知識圖譜注入了一針“強心劑”。預訓練語言模型性能的提升降低了從海量的非結構化文本中獲取知識的成本,推動了知識圖譜在行業企業的落地應用。

如圖3所示的體系架構,百分點公司在行業知識圖譜的實踐應用中,信息抽取技術佔據着核心地位。行業知識圖譜構建的生命週期歷經知識定義、知識獲取、知識融合、知識存儲、知識應用多個環節,這些過程的每一步都需要專業的信息處理技術與技能才能完成。下面重點闡述信息抽取相關的知識定義及知識獲取環節內容。

圖2 融合信息抽取的知識圖譜構建流程

2.1 知識定義

傳統的知識工程研究領域人們以本體、主題詞表、元數據、數據模式來建立結構化的知識,在本文知識定義泛指結構化的數據模型,即通過構建圖譜模式(schema)規範數據層的表達與存儲。數據模型是線狀或網狀的結構化知識庫的概念模板,知識圖譜一般採用資源描述框架(RDF)、RDF模式語言(RDFS)、網絡本體語言(OWL)及屬性圖模型。

(1)RDF模型

RDF在形式上以三元組表示實體及實體之間的關係,反映了物理世界中具體的事物及關係,如圖3所示。

圖3 RDF數據模型示例

(2)RDFS模型

RDFS在RDF的基礎上定義了類、屬性以及關係來描述資源,並且通過屬性的定義域和值域來約束資源。RDFS在數據層的基礎上引入了模式層,模式層定義了一種約束規則,而數據層是在這種規則下的一個實例填充,如圖4所示。

圖4 RDFS數據模型示例

(3)OWL模型

OWL是對RDFS關於描述資源詞彙的一個擴展,OWL中添加了額外的預定義詞彙來描述資源,具備更好的語義表達能力。

(4)屬性圖

屬性圖數據模型由頂點、邊及其屬性構成,圖數據庫通常是指基於屬性圖模型的圖數據庫[6]。屬性圖與RDF圖最大的區別在於:RDF圖可以更好地支持多值屬性;RDF圖不支持兩頂點間多個相同類型的邊;RDF圖不支持邊屬性。

圖5 屬性圖數據模型

知識定義與信息模型的概念類似,可借鑑元數據和本體論技術,描述定義域的實體類型及其屬性、關係和實體上的允許操作,常見的流行方法包括自上而下(Top-down)的構建方式、自下而上(Bottom-up)的構建方式。自上而下,即由行業專家預先定義圖譜模式,再以模式組織數據層資源建設;自下而上,即通過信息抽取技術從文本中抽取出實體,再依賴大數據挖掘、機器學習技術分析實體的語義關聯關係來構建模式。自上而下顯然更加準確,然而自下而上代表着數據驅動的自動圖譜構建模式,不論是哪一種方法知識定義應是信息抽取的前提條件

2.2 知識獲取

按數據源類型劃分,知識獲取包括從結構化、半結構化和非結構化的數據中獲取知識。

從結構化數據中獲取知識,需把關係數據庫中的數據轉換成RDF形式的知識,可使用開源工具D2RQ等將關係數據庫轉換爲RDF,但難點在於難以自動與圖譜模式結合與映射,需要依賴人工編寫映射規則;從半結構化的網頁數據獲取知識主要採用包裝器方法,而對於行文格式穩定的文本可視作半結構化數據,可通過格式解析、基於規則的方法進行抽取。

圖6 知識獲取[7]

對於非結構化的文本數據,抽取的知識包括實體、關係、屬性、事件。

對應的研究問題有四個 :一是實體抽取,也即命名實體識別,實體包括概念、組織機構、人名、地名、時間等;二是關係抽取,即兩個實體之間的關聯性知識等,包括上下位、類屬關係等;三是屬性抽取,即實體或關係的特徵信息,關係反映實體與外部的聯繫,而屬性體現實體的內部特徵;四是事件抽取,事件是發生在某個特定時間點或時間段、某個特定地域範圍內,由一個或者多個角色參與的一個或者多個動作組成的事情或者狀態的改變[8]

非結構化數據的抽取問題,研究的人比較多,對於具體的語料環境,採取的技術也不盡相同。對於純文本一般按照篇、章、段、句進行文本切割,基於主題詞對文本分類、聚類預處理,並由人工開展數據標註與模型訓練,最後集成多種信息抽取模型抽取知識。

基於信息抽取算法

構建百分點行業知識圖譜

知識定義是信息抽取的前提條件,結合當前結構化、半結構化和非結構化信息抽取的理論、工具和經典算法,百分點通過創新實踐,探索出了一套行業知識圖譜構建流程方法。

1. 結構化信息抽取

行業知識圖譜的構建過程往往需要將業務系統的部分關係型數據庫的數據抽取出來,並轉換爲RDF模型或屬性圖模型的形式存入圖譜數據庫中,這種從關係型數據庫接入數據、預處理並映射爲圖譜模式的抽取方式稱爲結構化信息抽取。

W3C爲此制定了兩個知識映射標準語言:R2RML及直接映射(DM),DM和R2RML映射語言用於定義關係數據庫中的數據如何轉換爲RDF數據的各種規則,具體包括URI的生成、RDF類和屬性的定義、空節點的處理、數據間關聯關係的表達等[9]

直接映射將關係型數據庫中的一張表映射爲RDF的類(Class),表中的列映射爲屬性(Property),表的一行映射爲一個資源或實體並創建資源標識符,單元格值映射爲屬性值[9]。直接映射可將關係數據庫表結構和數據直接轉換爲RDF圖,但直接映射僅僅提供簡單轉換能力。而R2RML映射語言可靈活定製從關係型數據庫數據實例轉換爲RDF數據集的映射規則,符合R2RML映射算法的工具輸入是關係數據庫檢索數據的邏輯表,邏輯表通過三元組映射轉換爲具有相同數據模式的RDF並作爲輸出結果。

2. 半結構化信息抽取

半結構化數據是一種特殊的結構化數據形式,該形式的數據不符合關係數據庫或其他形式的數據表形式結構,但又包含標籤或其他標記來分離語義元素並保持記錄和數據字段的層次結構[9]。針對網頁數據的信息抽取技術較爲成熟,可依網頁結構化的不同程度分別採用人工方法、半自動或全自動的方法開發包裝器進行信息抽取。

基於有監督學習的包裝器歸納方法,首先從已標註的訓練數據中學習網頁信息抽取規則,然後對具有相同結構的網頁數據進行抽取,一般的開發流程遵循“網頁清洗、數據標註、包裝器空間生成、評估”四個步驟,該方法依賴人工長期維護更新包裝器。手工方法開發包裝器首先通過人工分析網頁的結構和代碼,並編寫網頁的數據抽取表達式;表達式的形式一般可以是XPath表達式、css選擇器的表達式等,該方法適合簡單、結構穩定的網站的抽取。

3. 非結構化信息抽取

3.1 信息抽取框架

如前文所述,非結構化文本的信息抽取主要包括命名實體識別、屬性抽取、關係抽取、事件抽取等四個任務。命名實體識別是知識圖譜構建和知識獲取的基礎和關鍵,屬性抽取可看做實體和屬性值之間的一種名詞性關係而轉化爲關係抽取,因此信息抽取可歸納爲實體抽取、關係抽取和事件抽取三大任務。

3.2 命名實體識別

目前爲止, 命名實體識別主流方法 可概括爲:基於詞典和規則的方法、基於統計機器學習的方法、基於深度學習、遷移學習的方法等[10],如圖7所示。在項目實際應用中一般應結合詞典或規則、深度學習等多種方法,充分利用不同方法的優勢抽取不同類型的實體,從而提高準確率和效率。在中文分詞領域,國內科研機構推出多種分詞工具(基於規則和詞典爲主)已被廣泛使用,例如哈工大LTP、中科院計算所NLPIR、清華大學THULAC和jieba分詞等。

基於統計機器學習的方法可細分爲兩類 :第一類,分類方法,即首先識別出文本中所有命名實體的邊界,再對這些命名實體進行分類;第二類,序列化標註方法,即對於文本中每個詞可以有若干個候選的類別標籤,每個標籤對應於其在各類命名實體中所處的位置,通過對文本中的每個詞進行序列化的自動標註(也即分類),再將自動標註的標籤進行整合,最終獲得有若干個詞構成的命名實體及其類別[11]。序列化標註曾經是最普遍並且有效的方法,典型模型包括條件隨機場(CRF)、隱馬爾可夫模型(HMM)、最大熵馬爾可夫模型(MEMM)、最大熵(ME)、支持向量機(SVM)等。

圖7 命名實體識別常見算法

深度學習、遷移學習使用低維、實值、稠密的向量形式表示字、詞、句,再使用RNN/CNN/注意力機制等深層網絡獲取文本特徵表示,避免了傳統命名實體識別人工特徵工程耗時耗力的問題,且得到了更好的效果,目前常用的框架方法有BiLSTM-CRF、BERT-CRF/BERT-BiLSTM-CRF。

在百分點的知識圖譜構建應用中,法律百科概念詞條領域實體,採用基於詞典和規則的方法從文本中抽取實體類知識,具有更高的準確率;而抽取人名、地名、組織機構等,由於無法構建完整的詞典且規則很難適應數據變化,採用基於序列標註的命名實體抽取模型BiLSTM-CRF 或者BERT-CRF 實現。

3.3 關係抽取

從前文可知,關係抽取指三元組抽取,實體間的關係形式化地描述爲關係三元組(主語,謂語,賓語),其中主語和賓語指的是實體,謂語指的是實體間的關係。早期的關係抽取方法包括基於規則的關係抽取方法、基於詞典驅動的關係抽取方法、基於本體的關係抽取方法[12]基於機器學習的抽取方法以數據是否被標註作爲標準進行分類,包括:有監督的關係抽取算法、半監督的關係抽取算法、無監督的關係抽取算法[12],如圖8所示。

圖8 關係抽取常見算法

有監督的機器學習方法將一般的二元關係抽取視爲分類問題,通常需預先了解語料庫中所有可能的目標關係的種類,並通過人工對數據進行標註,建立訓練語料庫,使用標註數據訓練的分類器對新的候選實體及其關係進行預測、判斷。

同樣地,傳統機器學習的關係抽取方法選擇的人工特徵工程十分繁雜,而深度學習的關係抽取方法通過訓練大量數據自動獲得模型,無需人工提取特徵。深度學習經過多年的發展,逐漸被研究者應用在實體關係抽取方面,有監督的關係抽取方法主要有流水線學習(Pipeline)和聯合學習(Joint)兩種。

(1)流水線式關係抽取方法

該方法將關係抽取分爲兩階段任務:第一階段對輸入的句子進行命名實體識別;第二階段對命名實體進行兩兩組合,再進行關係分類,把存在關係的三元組作爲輸出結果[12]。流水線方法將實體識別、關係抽取分爲兩個獨立的過程,關係抽取依賴實體抽取的結果,容易造成誤差累積。

當前深度學習的關係抽取主要聚焦在有監督學習的句子級別的關係抽取,根據使用的編碼器以及是否使用依存句法樹,可以大致將相關係統劃分爲三種:基於卷積神經網絡的關係抽取,基於循環神經網絡的關係抽取和基於依存句法樹的關係抽取。

(2)實體關係聯合學習抽取方法

實體關係聯合學習方法主要包括以下兩種:

a. 基於共享參數的方法: 典型方法有BiLSTM、BiLSTM+Attention等,命名實體識別和關係抽取兩階段任務通過共享編碼層在訓練過程中產生的共享參數相互依賴,最終訓練得到最佳的全局參數。流水線方法中存在的錯誤累積傳播問題和忽視兩階段子任務間關係依賴的問題在該方法中可得到改善,並提高模型的魯棒性。

b. 基於序列標註的方法: 由於基於共享參數的方法容易產生信息冗餘,如果將命名實體識別和實體關係抽取融合成一個序列標註問題,可同時識別出實體和關係,值得注意的是應使用新的標註策略標註(實體位置、關係類型、關係角色)[13]。該方法利用一個端到端的神經網絡模型抽取出實體之間的關係三元組,減少了無效實體對模型的影響,提高了關係抽取的召回率和準確率。

在百分點的知識圖譜構建應用中,構建法律百科概念詞條圖譜時從法律文件、權威案例和法律圖書抽取概念實體的定義(可視作屬性抽取)等行文格式較爲規範、固定的文本抽取三元組採用基於模板的方法;警務文本的警務要素及內容抽取等較爲開放的關係抽取採用BERT作爲多分類器的關係分類抽取或序列標註方法。

3.4 事件抽取

“事件”被用於描述事情的發生或事務狀態的改變,而事件抽取任務則是一種從自然語言文本中提取出具有事件框架的結構化信息的方法。具體地,一個事件的主要組成如表 1所示。

表1 事件組成框架[14]
實體 一個或一組對象,可以通過其名稱在文本中被引用。在ACE標準中一共給出了7種實體類型,包括:設施、地理位置、組織機構、交通、人名人稱等。
事件觸發 詞事件出現的標誌,用於描述事件、動作、狀態、狀態變化和經歷。在大多數情況下,觸發詞總是以動詞或動詞短語形式出現,且是所在句子範圍內最直接描述事件的部分。
事件論元 也稱作事件元素角色,指在事件中扮演某個角色的參與者,主要由實體、時間、數值組成。其中,每個事件的論元數量在很大程度上取決於該觸發詞的含義。
事件類型 指當前事件所屬的類別,該類別通常是預定義的。每個事件類型和子類型都有自己的一組潛在的參與者角色,因此,事件論元的角色與事件類型密切相關。在某些情況下,針對潛在事件的檢測問題,也取決於是否有事件論元填補相應的事件參與者角色。

從上述定義可以看出,實體、觸發詞、事件論元以及事件類型四者相互之間存在着包含或約束的關係。其中,實體是一種適用於所有文本的概念,但在自動內容抽取(Automatic Content Extraction,ACE)評測會議標準定義的事件中,實體是事件論元的主要組成。值得注意的是,實體本身的類型並不代表着其作爲論元時在事件中的角色。事件論元的角色只與事件類型和觸發詞有關。事件論元的角色可以通過與事件句內觸發詞或其他實體的關係挖掘而確定。一般事件類型具有該類型下的事件模板,當中包含了固定的事件論元角色[14]。此外,由於觸發詞是事件發生的標誌,因此事件類型的判別往往通過觸發詞的識別完成。事件抽取任務主要包含兩個部分:

(1)事件類型檢測

通常觸發詞與事件類型之間存在着對應關係,因此對事件類型的判定可通過觸發詞的識別和匹配實現。

(2)事件論元識別

在確定了事件類型後,根據該類型所具有的事件模板找到事件參與者的角色,再通過語義關係解析從事件句中挖掘相關論元。因此,基於ACE標準的完整事件抽取架構包括:文本預處理、事件類型檢測和事件論元識別,如圖9所示。

圖9 基於ACE 標準的事件抽取任務架構[13]

在百分點的知識圖譜構建應用中,警情文本的要素抽取符合事件論元抽取理論,該類非結構化的文本包含社會安全類、事故災難類等事件類型及子類型,警務專家爲子類型在內的所有事件類型制定了參考的事件模板,彙總觸發詞、事件類型和事件論元及角色。下文3.3節將給出基於事件論元的警情事件要素結構化案例介紹。

百分點信息抽取算法

創新應用及實踐效果

1. 基於模板的法百科信息抽取方法

(1)應用場景:法律百科概念詞條圖譜信息抽取

法律百科概念詞條圖譜信息抽取主要目的是構建法律行業的百科全書,以便於用戶查找專業法律詞條知識。數據共分爲三個來源數據,分別是法律文件、權威案例和法律圖書,需要從數據中提取對應領域的專業詞條名稱及對應的相關釋義。例如:從法律文件中提取“警用車船”詞條,並給出對應的釋義:車船稅法第三條第三項所稱的警用車船,是指公安機關、國家安全機關、監獄、勞動教養管理機關和人民法院、人民檢察院領取警用牌照的車輛和執行警務的專用船舶。法百科詞條構建及管理界面示例如圖10所示。

圖10 法百科詞條構建及管理界面示例

(2)基於模板的知識抽取

通過人工研究法律文件、權威案例等法律領域的專業詞條的寫作規律和句式結構,分析法律相關概念實體與概念定義之間的特徵,構建抽取的語言模板,通過模板從文本中匹配出實體之間的關係,該方法在構建法律詞條這一特定領域內,可以取得較好的結果。

(3)應用效果

在相關文本數據上進行了足量的數據標註,並基於此對信息抽取進行了相關指標的考評,結果如表2所示,詞條名稱及釋義整體準確率超過90%。

表2 法百科詞條抽取評價指標
文件類型 實際個數 預測個數據正確 個數 準確率 召回率
法律文件 200 179 171 95.53% 85.50%
權威案例 350 365 334 91.51% 95.43%
法律圖書 296 313 270 86.26% 91.22%

2. 基於有監督學習的警務文本信息抽取

2.1 基於序列標註框架的命名實體識別

(1)應用場景:警務文本命名實體識別

警務文本包括案件敘述性文本描述數據,如案件卷宗、審訊筆錄/口供、簡要案情等等類型的數據,文本涉及到的與業務分析和研判相關的案發場所、嫌疑人特徵等核心要素,通常可轉化爲自然語言處理中的實體識別問題。警務系統業務中有研判價值的實體通常包括:姓名、地址、組織機構、聯繫方式、公民身份號碼、時間等。對於警務文本中的身份證號、手機號實體,應採用基於規則或基於詞典的方法進行命名實體識別。而文本中的人名、地名、組織機構名稱等實體信息在文本中的表述形式是多樣並且難以完整列舉,當前主要採用基於序列標註的有監督學習抽取方法。命名實體識別採用前文介紹的基於規則的方法及基於BERT+CRF序列標註模型進行抽取。

(2)BiLSTM/BERT+CRF模型架構

百分點在基於深度學習、遷移學習的實體識別實踐中沉澱了兩套經典的模型:BiLSTM+CRF模型架構、BERT+CRF模型架構。兩套架構自底向上遵循詞編碼器、序列編碼器、序列解碼器三層結構。BiLSTM+CRF模型架構的詞編碼器採用Word Embedding,序列編碼器採用BiLSTM,序列解碼器採用CRF模型,模型架構如圖11所示。

圖11 BiLSTM+CRF序列標註模型架構

BERT+CRF模型架構詞編碼器採用WordPiece、字符位置編碼器採用正弦位置嵌入(Postional Embedding)及句子嵌入(Segment Embedding)、序列編碼器採用Transformer結構,序列解碼器採用CRF模型,模型架構如圖12所示。

圖12 BERT+CRF序列標註模型架構

在序列標註的命名實體識別模型中,對於每個單詞都需要預測一個多元分類問題。在經過序列編碼器之後,每個單詞都有一個向量表示,爲了預測每個單詞對應的標籤,需要序列解碼器來完成從序列向量到對應預測標籤的轉換。這兩套模型的序列解碼器都採用CRF模型作爲解碼器。

(3)警務文本實體抽取應用效果

警務文本的命名實體識別評價指標如表3所示。

表3 警務文本命名實體識別指標
序號 實體類型 測試個數 準確率 召回率
1 身份證號 83 100.00% 100.00%
2 手機號 55 100.00% 98.85%
3 關聯地址 171 96.10% 92.30%
4 性別 188 100.00% 100.00%
5 姓名 189 94.70% 92.70%
7 組織機構名稱 96 92.50% 89.45%

2.2 基於關係分類的關係抽取

(1)應用場景:警務文本關係抽取

由於警務文本數據關注的是以人爲核心的實體,因此當文本中出現一個以上的人員及其相關實體信息時候,需要在提取的姓名、性別、地址、聯繫方式、公民身份號碼的基礎上梳理清楚各個實體之間的對應關係或從屬關係。簡單而言就是將人名實體找到其對應的地址、公民身份號碼、聯繫方式、性別等人員屬性,可以表示爲五元組<姓名,性別,公民身份證號,手機號,關聯地址>。N元組本質上可以拆分成多個三元組,因此警務文本中的N元組關係對抽取形式如表 4所示。

表4 警務文本N元組關係對
序號 N元組關係對
1 <姓名,公民身份證號>
2 <姓名,手機號>
3 <姓名,關聯地址>
4 <姓名,性別>
5 <姓名,性別,公民身份證號,手機號,關聯地址>

(2)基於BERT的關係分類模型

BERT通過大型跨域語料庫使用遮蔽語言模型和下一句預測任務共同預訓練文本表示。警務文本信息抽取對BERT的應用方法如圖13所示,模型的輸入序列的整體結構爲:{[CLS],w1,w2,…,wn, [SEP],s1,s2,…,si, [SEP],o1,o2,…,oj, [SEP]},w爲句子序列,s和o爲實體序列。序列經過BERT分詞處理,將字符轉換爲字id,然後映射到字嵌入向量,字嵌入向量E表示爲E={E1,E2,…,En}。經過多層Transformer的Encoder編碼,最後得到句子的編碼向量。取“[CLS]”這個特殊開始字符對應的向量(“[CLS]”的編碼表示經常用於判斷下一個句子)將編碼序列的第一個結果作爲關係抽取的語義向量。該語義向量在關係分類器層,經過一層全連接層,然後使用softmax函數計算關係概率。

圖13 基於BERT的關係分類模型

(3)關係抽取應用效果

警務文本的關係抽取如圖14所示(示例數據是模擬的,已經完全脫敏):

圖14 警務文本信息抽取輸入示例

關係抽取結果如圖15所示(示例數據是模擬的,已經完全脫敏):

圖15 警務文本信息抽取結果實例

在相關警務文本數據上進行了足量的數據標註,並基於此對實體抽取和關係抽取的N元組進行了相關指標的考評,結果如表 5所示,採用流水線式的命名實體識別及關係抽取整體的準確率和召回率在95%以上。

表5 警務文本信息抽取評測指標

3. 警情事件論元聯合信息抽取

3.1 應用場景:警情事件論元抽取

警情事件識別與抽取是構建警情知識圖譜的重要環節,目的是從非結構化警情文本中識別出描述事件的句子,並從中抽取出與事件描述相關的信息(事件元素、因果關係),最後以結構化的形式存儲。警情文本的事件類型包括社會安全類、事故災難類、網絡輿情類、治安和刑事案件類、公共衛生類等5大類。

事件類型還可根據警情業務進一步細分爲子類型,比如社會安全類可分爲社會安全事件、涉穩事件、涉外事件、恐怖主義事件等4小類。事件發生子類的事件採用2.3.4節表示方法,將事件表示爲實體、觸發詞、事件論元以及事件類型組成的複合知識單元。如圖16所示(示例數據是模擬的,已經完全脫敏),警情案件文本按照圖9所示流程識別觸發詞爲“家門被撬”後判別事件類型爲盜竊案件,最終抽取出事件論元及角色實現文本結構化分析。

圖16 警情案件事件論元抽取例子

3.2 事件論元角色聯合抽取模型

在實踐應用中百分點參考分層二進制標註框架(Hierarchical Binary Tagging)[15],將論元抽取視作事件觸發詞與事件論元的映射關係,模型的整體結構如圖17所示,主要包括如下幾個部分:

(1)BERT 編碼器:通過BERT得到每個詞的詞表徵,把BERT的輸出當作詞向量使用;

(2)事件論元標註器:該部分用於識別所有可能的事件論元。其通過對每一個位置的編碼結果用兩個分類器(全連接層)進行分類,來判斷其是否是事件論元的開始或結束位置,激活函數爲Sigmoid。

(3)事件角色標註器:針對每一個事件論元,都需要對其進行之後的事件論元的角色進行預測。由圖中可知,其與事件論元標註器基本一致,主要區別在於每一個事件類型獨享一組事件論元角色分類器,同時還要將事件論元作爲特徵和BERT詞向量拼接後作爲輸入。

圖17 事件論元、角色聯合抽取

警情文本事件論元角色聯合信息抽取在大多數人工標註數據集及實際應用中取得了較好的結果,在效果較差的某些事件類型的文本中通過增加人工標註數據可提升模型的準確率。

總結與展望

本文首先辨析了知識獲取、知識抽取、信息抽取類似概念本質的區別與聯繫,然後總結了百分點行業知識圖譜構建流程方法,指出知識定義是信息抽取的前提條件,在此基礎上介紹了當前結構化、半結構化和非結構化信息抽取的理論、工具和經典算法。文末結合百分點公司在法律百科詞條、警務文本實際圖譜構建項目中,介紹信息抽取算法應用方法和效果,幫助讀者深入瞭解信息抽取的實踐應用狀況。總的來說,信息抽取對構建行業知識圖譜具有重要的價值,同時面臨着巨大的挑戰,應充分藉助深度遷移學習的發展帶來的機遇,一方面發展數據智能標註技術降低人工標註成本,另一方面突破模型對於標註數據數量的依賴,並在更多的實際業務需求中進行實踐和應用。

參考資料

[1]中國中文信息學會.知識圖譜發展報告(2018)

[2]中國電子技術標準化研究院.知識圖譜標準化白皮書,2019年

[3]清華大學人工智能研究院.人工智能之知識圖譜,2019年第2期

[4]GB/T 23703.2 知識管理 第2部分:術語

[5]趙軍,劉康,周有光等.開放式文本信息抽取. 中科院自動化所,中文信息學報,2011年

[6]圖數據庫白皮書.中國信息通信研究院雲計算與大數據研究所.2019年

[7]王昊奮.行業知識圖譜構建與應用101.PlantData

[8]陳玉博.事件抽取與金融事件圖譜構建.中科院自動化所,2018年

[9]王昊奮,漆桂林,陳華鈞.知識圖譜方法、實踐與應用.電子工業出版社

[10]黃晴雁,牟永敏.命名實體識別方法研究進展.現代計算機,2018年12月

[11]劉瀏,王東波.命名實體識別研究綜述.情報學報,2018年

[12]李冬梅,張揚等.實體關係抽取方法研究綜述.計算機研究與發展,2019年6月

[13]Suncong Zhend等.JointExtraction of Entities and Relations Based on a Novel Tagging Scheme.中科院自動化所,ACL2017

[14]鄒馨儀.基於深度學習的金融事件抽取技術研究.電子科技大學,2017年

[15]Zhepei Wei等.ANovel Cascade Binary Tagging Framework for Relational Triple Extraction,吉林大學.2020ACL

本文轉載自公衆號百分點(ID:baifendian_com)。

原文鏈接

信息抽取在知識圖譜構建中的實踐與應用

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章