事件抽取的簡單方法
再構建event graph, 不免要用到event extraction的方法,這裏引用了一篇別人的總結作爲參考學習
https://www.cnblogs.com/cyandn/p/10915394.html
關係抽取
定義:自動識別實體之間具有的某種語義關係。根據參與實體的多少可以分爲二元關係抽取(兩個實體)和多元關係抽取(三個及以上實體)。
通過關注兩個實體間的語義關係,可以得到(arg1, relation, arg2)三元組,其中arg1和arg2表示兩個實體,relation表示實體間的語義關係。
根據處理數據源的不同,關係抽取可以分爲以下三種:
- 面向結構化文本的關係抽取:包括表格文檔、XML文檔、數據庫數據等
- 面向非結構化文本的關係抽取:純文本
- 面向半結構化文本的關係抽取:介於結構化和非結構化之間
根據抽取文本的範圍不同,關係抽取可以分爲以下兩種:
- 句子級關係抽取:從一個句子中判別兩個實體間是何種語義關係
- 語料(篇章)級關係抽取:不限定兩個目標實體所出現的上下文
根據所抽取領域的劃分,關係抽取又可以分爲以下兩種:
- 限定域關係抽取:在一個或者多個限定的領域內對實體間的語義關係進行抽取,限定關係的類別,可看成是一個文本分類任務
- 開放域關係抽取:不限定關係的類別
限定域關係抽取方法:
- 基於模板的關係抽取方法:通過人工編輯或者學習得到的模板對文本中的實體關係進行抽取和判別,受限於模板的質量和覆蓋度,可擴張性不強
- 基於機器學習的關係抽取方法:將關係抽取看成是一個分類問題
其中基於機器學習的關係抽取方法又可分爲 有監督 和 弱監督。
有監督的關係抽取方法:
- 基於特徵工程的方法:需要顯示地將關係實例轉換成分類器可以接受的特徵向量
- 基於核函數的方法:直接以結構樹爲處理對象,在計算關係之間距離的時候不再使用特徵向量的內積而是用核函數
- 基於神經網絡的方法:直接從輸入的文本中自動學習有效的特徵表示,端到端
弱監督的關係抽取方法:不需要人工標註大量數據。
距離監督:用開放知識圖譜自動標註訓練樣本,不需要人工逐一標註,屬弱監督關係抽取的一種。
開放域關係抽取方法:
不需要預先定義關係類別,使用實體對上下文中的一些詞語來描述實體之間的關係。
總結:
限定域關係抽取是目前研究的主流方向。
傳統的基於模板的關係抽取方法可擴展性差,基於機器學習的關係抽取方法是目前研究的熱點。
基於有監督學習的關係抽取需要人工標註大量訓練數據,耗時費力,基於弱監督學習的關係抽取得到了越來越多的關注。
事件抽取
定義:從描述事件信息的文本中抽取出用戶感興趣的事件並以結構化的形式呈現出來。
步驟:首先識別出事件及其類型,其次要識別出事件所涉及的元素(一般是實體),最後需要確定每個元素在事件中所扮演的角色。
事件抽取相關概念:
- 事件指稱:對一個客觀發生的具體事件進行的自然語言形式的描述,通常是一個句子或句羣
- 事件觸發詞:指一個事件指稱中最能代表事件發生的詞,是決定事件類別的重要特徵,一般是動詞或名詞
- 事件元素:事件中的參與者,主要由實體、時間和屬性值組成
- 元素角色:事件元素在相應的事件中扮演什麼角色
- 事件類別:事件元素和觸發詞決定了事件的類別(類別又定義了若干子類別)
限定域事件抽取:在進行抽取之前,預先定義好目標事件的類型及每種類型的具體結構(包含哪些具體的事件元素),通常會給出一定數量的標註數據。
限定域事件抽取方法:
- 基於模式匹配的方法:對某種類型事件的識別和抽取是在一些模式的指導下進行的(步驟:模式獲取、模式匹配)
- 有監督的事件模式匹配:模式的獲取完全基於人工標註的語料
- 弱監督的事件模式匹配:不需要對語料進行完全標註,只需要人工對語料進行一定的預分類或者制定少量種子模式
- 基於機器學習的方法
- 有監督事件抽取方法:將事件抽取建模成一個多分類問題
- 基於特徵工程的方法:需要顯示地將事件實例轉換成分類器可以接受的特徵向量,研究重點在於怎樣提取具有區分性的特徵
- 基於神經網絡的方法:自動從文本中獲取特徵進而完成事件抽取,避免使用傳統自然語言處理工具帶來的誤差累積問題
- 弱監督事件抽取方法:不需要人工大量標註樣本,但需要給出具有規範語義標籤(事件類別、角色名稱等)的標註訓練數據
- 基於Bootstrapping的事件抽取:利用少部分人工標註的數據自動生成大規模標註數據(高置信度抽取結果會作爲訓練樣本,然後再訓練,不斷迭代)
- 基於Distant Supervison的事件抽取:完全自動生成事件標註樣本,利用結構化的事件知識庫直接在非結構化文本中回標訓練樣本
- 有監督事件抽取方法:將事件抽取建模成一個多分類問題
開放域事件抽取:在進行事件識別之前,可能的事件類型以及事件的結構都是未知的,因此該任務通常沒有標註數據,主要基於無監督的方法和分佈假設理論。
分佈假設理論:如果候選事件觸發詞或者候選事件元素具有相似的語境,那麼這些候選事件觸發詞傾向於觸發相同類型的事件,相應的候選事件元素傾向於扮演相同的事件元素。
開放域事件抽取方法:
- 基於內容特徵的事件抽取方法
- 基於異常檢測的事件抽取方法
事件關係抽取,以事件爲基本語義單元,實現事件邏輯關係的深層檢測和抽取,包括:
- 事件共指關係抽取
- 事件因果關係抽取
- 子事件關係抽取
- 事件時序關係抽取
總結:
組織和構建同時包含實體、實體關係、事件、事件關係的事件知識圖譜得到了越來越多的關注。