事件抽取與事理圖譜(一)

事件抽取是信息抽取研究中最具挑戰性的任務之一,其主要研究如何從非結構化自然語言文本中抽取出事件的基本信息,例如事件的類型,事件的參與者,發生時間和地點等,並以結構化的形式呈現出來。

一些信息抽取領域的國際評測會議針對事件抽取提出了一系列的理論,並推出了一些實用的系統框架:

 

 

 

事件,作爲信息的一種表現形式,其定義爲特定的人、物在特定時間和特定地點相互作用的客觀事實,一般來說是句子級的。

組成事件的各元素包括:

 

 

 

 

例句:在Baghdad,當一個美國坦克對着 Palestine 酒店開火時一個攝影師死去了。

 

 

 

 

 

 

根據上述定義,事件抽取任務可以分成兩個子任務,分別是:

事件觸發詞及類型的識別(基於單詞的多分類任務)

事件元素的識別(基於詞對的多分類任務,是一種角色關係識別)

 

例如,對文本“Intel在中國成立了研究中心”進行事件抽取:

第一步應該將“成立”識別成觸發詞,其觸發了一個“成立機構”類型的事件;

第二步應該將“Intel”、“中國”和“研究中心”識別成事件元素,其角色分別爲“設立方”、“地點”和“被成立機構”

 

 

表示一個動作的發生或狀態的變化,往往由動詞驅動,也可以由能表示動作的名詞等其他詞性的詞來觸發,它包括參與該動作行爲的主要成分 ( 如時間、地點、人物等) 。

 

包括一類核心事件或活動以及所有與之直接相關的事件和活動,可以由多個元事件片段組成。

當前主要是面對元事件抽取,關於主題事件抽取的研究較少。

 

 

模式匹配

模式匹配在特定領域內能取得較高的性能,但移植性較差。

機器學習

無需太多領域專家的指導,系統移植性較好。隨着相關語料庫的建設和互聯網上各種文本資源的不斷豐富,語料的獲取不再是束縛機器學習的瓶頸。

機器學習已成爲元事件抽取的主流研究方法。

將事件類別及事件元素的識別轉化成爲分類問題,其核心在於分類器的構造和特徵的選擇。

 

2000 年以來, 對中文進行事件抽取研究主要以基於模式匹配的事件抽取算法和觸發詞法爲主。算法使用頻率統計如下:

 

 

實際上, 爲了提高事件抽取的效果, 實際應用中存在將兩個或兩個以上的算法進行組合應用, 即首先使用某算法 ( 如先使用模式匹配法過濾非事件句後再用 SVM 法識別事件句, 使用 KNN 算法提取觸發詞再用觸發詞法抽取事件) 進行處理, 再使用其他算法進一步處理以提高事件抽取的準確度。

 

 

 

 

 

 

 

Context-word feature(CWF):將一個句子中的所有詞作爲上下文,CWF是一個所有字標記都被轉換爲詞嵌入向量。#

Position feature(PF): PF被定義爲當前詞語與預測trigger以及候選argument之間的相對距離。相對距離有兩個,一個是對於trigger,一個對於候選argument。

Event-type feature(EF):當前trigger的事件類型對於argument classification也是具有價值的。所以對在trigger classification過程中預測的事件類型進行編碼,也做爲DMCNN的一個重要線索,編碼方式與PF相同。

 

 

 

識別出事件中的觸發詞和要素後,相當於識別出了事件語義圖中孤立的節點和邊,需要按照事件的約束進行組合形成事件。

識別出的節點和要素邊可能有不合法的,在組合時需要去掉這些無效的節點和邊。

事件後處理方法主要包括基於規則的後處理方法和基於統計機器學習的方法。

 

 

 

 

近來,針對事件抽取的工作大都集中在預測事件的 triggers 和 arguments roles,而把實體識別當作是已經由專家標註好了的,然而實際情況是實體識別通常是由現有工具包預測出來的,而這將會導致實體類型預測產生的錯誤傳播到後續任務中而無法被糾正。

因而,本文提出一種基於共享的 feature representation,從而預測實體類型,triggers,argumentsroles 的聯合模型。實驗表明我們的方法做到了 state-of-the-art。

該模型由三個核心部分組成,分別是實體類型預測(Entity MentionDetection - EMD)、事件類型預測(Event Detection - ED)和語義角色類型預測(Argument RolePrediction - ARP)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

事理圖譜,顧名思義,是以事件爲節點,事件間的關係爲邊的圖譜網絡。

與知識圖譜中實體及關係大多是穩定的不同,事理圖譜中關係大多是不確定的,以一定的概率進行轉移。

 

 

人類的命題記憶是以“事件”爲存儲單位的,以事件作爲知識的基本單元更能反映客觀世界的知識。

從認知心理學的角度來看,事件更符合人類的理解與思維習慣,事件關係到多方面的概念,是比概念粒度更大的知識單元。

傳統本體(知識圖譜)所使用的概念模型難以反映事件這一更高層次和更復雜的語義信息,模型缺少了更高層次的結構。

 

 

 

從知識圖譜的本質上來說,是以傳統本體概念爲基礎進行知識組織的,傳統本體對於概念的描述着重對其靜態特徵的描述,缺乏對動態特徵的描述。

知識圖譜只能回答什麼是什麼的問題,從根本上來說也沒有跳出“靜態”這一屬性。在諸如“怎麼了”,“接下來會怎麼樣?”,“爲什麼”,“怎麼做”等問題上,知識圖譜顯得有些乏力。

 

 

 

 

知識圖譜的技術及應用相對已經開始成熟,但只是基於實體知識庫,並不足以描述事件之間的演化規律,而事理邏輯對現實世界的行爲推演尤其重要。

 

 

 

 

人工智能從感知到認知的發展,需要一個能思考、推理、聯想的大腦!

知識圖譜與事理圖譜兩者之間存在着諸多異同之處,體現在描述知識、研究對象、構建目標、知識形式等方面:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章