共指消解技術綜述
摘要重點
- 共指消解旨在識別指向同一實體的不同表述
- 共指消解是一個NP-Hard的問題
- 共指消解的發展經歷了基於規則、基於機器學習、基於全局最優化、基於知識庫和基於深度學習的模型階段
引言
共指消解(coreference resolution)技術同NER、RE。作爲自然語言歷屆基礎技術被廣泛的應用於:文本摘要、機器翻譯、自動問答和知識圖譜等領域。
共指消解的提出是爲了識別一段文本中指向同一實體的不同表述。
整個共指消解的過程可以理解爲——判斷一個表述是否指向另一個表述的過程。
照應語(Anaphor):指出的表述。
先行語(Antecedent):指入的表述。
簡化的判斷可如下:
照應語指向先行語
根據照應語和先行語的位置不同可分爲四種情況:
- 回指:先行語在照應語前,其中照應語爲人稱代詞。
- 預指:先行語在照應語後,其中照應語爲人稱代詞。
- 名詞短語共指:先行語和照應語均爲非人稱代詞的名詞短語。
- 先行語分指:一個照應語對應多個先行語。
共指消解的難點在於:
- 共指消解是一個NP-Hard 的問題,在多項式時間內無法求得最優解。
- 自然語言的場景和句式多變,同一句話在不同語境下可表示不同的含義,不同的句子可能標識同樣的含義。
- 語料質量較低,並且缺乏數據集。
基本概念
共指消解中的共指關係是一種等價關係。有如下性質:
- 自反性
- 對稱性
- 傳遞性
實體解析(Entity Resolution)與共指消解的定義基本相同,實體匹配(Entity Matching)和實體對齊(Entity Alignment)主要側重於不同的數據源之間是否指向同一實體。
共指消解可以作爲實體鏈接的一部分:
step1:命名實體識別
step2:共指消解
step3:實體消歧
回指消解:考慮同一篇章紅的照應語與上文中的先行語之間的語義關聯性,不一定是等價關係。
共指消解的研究現狀
基於規則的方法
Hobbs算法
Hobbs算法是在1978年提出的最早的共指消解算法之一。
Hobbs有兩個不同的版本:
- 完全基於句法知識的——樸素Hobbs算法。
- 加入語義知識的——Hobbs算法的改進版。
Converse首次將Hobbs算法運用在中文共指消解中,並語句語法加入了額外的約束信息。
中心理論
中心理論的大致思路是跟蹤文本中實體的焦點變化。
中心理論作爲一種理論模型,實例化後的算法也是基於規則的,所以其缺乏泛化能力。此外其職能判斷兩個相鄰表述是否共指,所以預測能力也較差。
基於機器學習的方法
監督學習
- 表述對模型(Mention-pair Model)
該模型將共指消解問題看作表述對的二分類模型。根據距離特徵和上下文特徵判定表述對是否共指。存在兩個缺陷:(1) 只關注先行語和照應語之間的關係,忽略了先行語兩兩之間的相互關係。(2) 當特徵不足以判斷是否共指時,可能存在代詞語義過空、表述性別難以分辨的問題。 - 表述排序模型(Mention-ranking Model)
該模型將共指消解問題看作是排序學習問題。模型考慮了多個先行語之間的排序關係,因此彌補了表述對模型的缺陷(1) - 實體表述模型(Entity-mention Model)
該模型將共指消解問題看作實體與表述的二元分類問題。其中實體爲共指的先行語集合。一個實體包含多個共指先行語,其上下文的信息可以互補,所以彌補了表述對模型的缺陷(2) - 實體排序模型(Entity-ranking Model/Cluster-ranking Model)
該模型結合了表述排序模型和實體表述模型的優點。
無監督學習
相比於海量的無標註文本,由於人工成本的昂貴,所以標註數據往往規模較少。
所以有的學者利用無監督學習進行共指消解,比如聚類,EM算法,LDA算法。
半監督學習
介於監督學習和無監督學習之間的方法,既能利用帶標註數據保證模型的精度,又可以通過無標註數據提升模型的泛化能力。
基於全局最優化的方法
基於機器學習的方法還有如下不足:
- 訓練數據的特徵往往是局部的,沒有考慮全局的依賴關係和語義特徵。
- 可能違背共指等價關係的傳遞性,“A與B共指,ByuC共指,則出現A與C不共指”
爲了緩解這個問題,全局最優化方法被提出。
基於知識庫的方法
人類的先驗知識有利於共指消解的任務,而先驗知識的獲取較爲困難,所以出現了利用知識庫中的知識,提取額外的特徵發現表述之間的隱含關係,從而提高模型的性能。
基於深度學習的方法
深度學習利用了word embedding、LSTM和Attention等方面的內容。進一步實現了end to end的模型,並且提升了整體的性能和泛化能力。
總結與展望
總結:
- 模型缺乏語義推理能力
- 缺乏共指消解的語料庫
- 模型效果過於依賴前置模型的性能
展望:
- 採用知識圖譜抽取開放特徵
- 更爲充分的利用無標註數據
- 利用好強化學習
- 更完備的end to end 模型