共指消解論文筆記(一)

摘要重點

  1. 共指消解旨在識別指向同一實體的不同表述
  2. 共指消解是一個NP-Hard的問題
  3. 共指消解的發展經歷了基於規則、基於機器學習、基於全局最優化、基於知識庫和基於深度學習的模型階段

引言

共指消解(coreference resolution)技術同NER、RE。作爲自然語言歷屆基礎技術被廣泛的應用於:文本摘要、機器翻譯、自動問答和知識圖譜等領域。

共指消解的提出是爲了識別一段文本中指向同一實體的不同表述。

整個共指消解的過程可以理解爲——判斷一個表述是否指向另一個表述的過程。
照應語(Anaphor):指出的表述。
先行語(Antecedent):指入的表述。
簡化的判斷可如下:
照應語指向先行語
在這裏插入圖片描述
根據照應語和先行語的位置不同可分爲四種情況:

  1. 回指:先行語在照應語前,其中照應語爲人稱代詞。
  2. 預指:先行語在照應語後,其中照應語爲人稱代詞。
  3. 名詞短語共指:先行語和照應語均爲非人稱代詞的名詞短語。
  4. 先行語分指:一個照應語對應多個先行語。

共指消解的難點在於:

  1. 共指消解是一個NP-Hard 的問題,在多項式時間內無法求得最優解。
  2. 自然語言的場景和句式多變,同一句話在不同語境下可表示不同的含義,不同的句子可能標識同樣的含義。
  3. 語料質量較低,並且缺乏數據集。

基本概念

共指消解中的共指關係是一種等價關係。有如下性質:

  1. 自反性
  2. 對稱性
  3. 傳遞性

實體解析(Entity Resolution)與共指消解的定義基本相同,實體匹配(Entity Matching)和實體對齊(Entity Alignment)主要側重於不同的數據源之間是否指向同一實體。

共指消解可以作爲實體鏈接的一部分:
step1:命名實體識別
step2:共指消解
step3:實體消歧

回指消解:考慮同一篇章紅的照應語與上文中的先行語之間的語義關聯性,不一定是等價關係。

共指消解的研究現狀

在這裏插入圖片描述

基於規則的方法

Hobbs算法

Hobbs算法是在1978年提出的最早的共指消解算法之一。
Hobbs有兩個不同的版本:

  1. 完全基於句法知識的——樸素Hobbs算法。
  2. 加入語義知識的——Hobbs算法的改進版。

Converse首次將Hobbs算法運用在中文共指消解中,並語句語法加入了額外的約束信息。

中心理論

中心理論的大致思路是跟蹤文本中實體的焦點變化。
中心理論作爲一種理論模型,實例化後的算法也是基於規則的,所以其缺乏泛化能力。此外其職能判斷兩個相鄰表述是否共指,所以預測能力也較差。

基於機器學習的方法

監督學習

  1. 表述對模型(Mention-pair Model)
    該模型將共指消解問題看作表述對的二分類模型。根據距離特徵和上下文特徵判定表述對是否共指。存在兩個缺陷:(1) 只關注先行語和照應語之間的關係,忽略了先行語兩兩之間的相互關係。(2) 當特徵不足以判斷是否共指時,可能存在代詞語義過空、表述性別難以分辨的問題。
  2. 表述排序模型(Mention-ranking Model)
    該模型將共指消解問題看作是排序學習問題。模型考慮了多個先行語之間的排序關係,因此彌補了表述對模型的缺陷(1)
  3. 實體表述模型(Entity-mention Model)
    該模型將共指消解問題看作實體與表述的二元分類問題。其中實體爲共指的先行語集合。一個實體包含多個共指先行語,其上下文的信息可以互補,所以彌補了表述對模型的缺陷(2)
  4. 實體排序模型(Entity-ranking Model/Cluster-ranking Model)
    該模型結合了表述排序模型和實體表述模型的優點。

無監督學習

相比於海量的無標註文本,由於人工成本的昂貴,所以標註數據往往規模較少。
所以有的學者利用無監督學習進行共指消解,比如聚類,EM算法,LDA算法。

半監督學習

介於監督學習和無監督學習之間的方法,既能利用帶標註數據保證模型的精度,又可以通過無標註數據提升模型的泛化能力。

基於全局最優化的方法

基於機器學習的方法還有如下不足:

  1. 訓練數據的特徵往往是局部的,沒有考慮全局的依賴關係和語義特徵。
  2. 可能違背共指等價關係的傳遞性,“A與B共指,ByuC共指,則出現A與C不共指”

爲了緩解這個問題,全局最優化方法被提出。

基於知識庫的方法

人類的先驗知識有利於共指消解的任務,而先驗知識的獲取較爲困難,所以出現了利用知識庫中的知識,提取額外的特徵發現表述之間的隱含關係,從而提高模型的性能。

基於深度學習的方法

深度學習利用了word embedding、LSTM和Attention等方面的內容。進一步實現了end to end的模型,並且提升了整體的性能和泛化能力。

總結與展望

總結:

  1. 模型缺乏語義推理能力
  2. 缺乏共指消解的語料庫
  3. 模型效果過於依賴前置模型的性能

展望:

  1. 採用知識圖譜抽取開放特徵
  2. 更爲充分的利用無標註數據
  3. 利用好強化學習
  4. 更完備的end to end 模型
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章