共指消解論文筆記（一）

原創

2020-02-25 22:50

共指消解技術綜述

基於規則的方法

基於機器學習的方法

監督學習

摘要重點

共指消解旨在識別指向同一實體的不同表述
共指消解是一個NP-Hard的問題
共指消解的發展經歷了基於規則、基於機器學習、基於全局最優化、基於知識庫和基於深度學習的模型階段

引言

共指消解（coreference resolution）技術同NER、RE。作爲自然語言歷屆基礎技術被廣泛的應用於：文本摘要、機器翻譯、自動問答和知識圖譜等領域。

共指消解的提出是爲了識別一段文本中指向同一實體的不同表述。

整個共指消解的過程可以理解爲——判斷一個表述是否指向另一個表述的過程。
照應語（Anaphor）：指出的表述。
先行語（Antecedent）：指入的表述。
簡化的判斷可如下：
照應語指向先行語

根據照應語和先行語的位置不同可分爲四種情況：

回指：先行語在照應語前，其中照應語爲人稱代詞。
預指：先行語在照應語後，其中照應語爲人稱代詞。
名詞短語共指：先行語和照應語均爲非人稱代詞的名詞短語。
先行語分指：一個照應語對應多個先行語。

共指消解的難點在於：

共指消解是一個NP-Hard 的問題，在多項式時間內無法求得最優解。
自然語言的場景和句式多變，同一句話在不同語境下可表示不同的含義，不同的句子可能標識同樣的含義。
語料質量較低，並且缺乏數據集。

基本概念

共指消解中的共指關係是一種等價關係。有如下性質：

自反性
對稱性
傳遞性

實體解析（Entity Resolution）與共指消解的定義基本相同，實體匹配（Entity Matching）和實體對齊（Entity Alignment）主要側重於不同的數據源之間是否指向同一實體。

共指消解可以作爲實體鏈接的一部分：
step1：命名實體識別
step2：共指消解
step3：實體消歧

回指消解：考慮同一篇章紅的照應語與上文中的先行語之間的語義關聯性，不一定是等價關係。

共指消解的研究現狀

基於規則的方法

Hobbs算法

Hobbs算法是在1978年提出的最早的共指消解算法之一。
Hobbs有兩個不同的版本：

完全基於句法知識的——樸素Hobbs算法。
加入語義知識的——Hobbs算法的改進版。

Converse首次將Hobbs算法運用在中文共指消解中，並語句語法加入了額外的約束信息。

中心理論

中心理論的大致思路是跟蹤文本中實體的焦點變化。
中心理論作爲一種理論模型，實例化後的算法也是基於規則的，所以其缺乏泛化能力。此外其職能判斷兩個相鄰表述是否共指，所以預測能力也較差。

基於機器學習的方法

監督學習

表述對模型(Mention-pair Model)
該模型將共指消解問題看作表述對的二分類模型。根據距離特徵和上下文特徵判定表述對是否共指。存在兩個缺陷：（1）只關注先行語和照應語之間的關係，忽略了先行語兩兩之間的相互關係。（2）當特徵不足以判斷是否共指時，可能存在代詞語義過空、表述性別難以分辨的問題。
表述排序模型(Mention-ranking Model)
該模型將共指消解問題看作是排序學習問題。模型考慮了多個先行語之間的排序關係，因此彌補了表述對模型的缺陷（1）
實體表述模型(Entity-mention Model)
該模型將共指消解問題看作實體與表述的二元分類問題。其中實體爲共指的先行語集合。一個實體包含多個共指先行語，其上下文的信息可以互補，所以彌補了表述對模型的缺陷（2）
實體排序模型(Entity-ranking Model/Cluster-ranking Model)
該模型結合了表述排序模型和實體表述模型的優點。

無監督學習

相比於海量的無標註文本，由於人工成本的昂貴，所以標註數據往往規模較少。
所以有的學者利用無監督學習進行共指消解，比如聚類，EM算法，LDA算法。

半監督學習

介於監督學習和無監督學習之間的方法，既能利用帶標註數據保證模型的精度，又可以通過無標註數據提升模型的泛化能力。

基於全局最優化的方法

基於機器學習的方法還有如下不足：

訓練數據的特徵往往是局部的，沒有考慮全局的依賴關係和語義特徵。
可能違背共指等價關係的傳遞性，“A與B共指，ByuC共指，則出現A與C不共指”

爲了緩解這個問題，全局最優化方法被提出。

基於知識庫的方法

人類的先驗知識有利於共指消解的任務，而先驗知識的獲取較爲困難，所以出現了利用知識庫中的知識，提取額外的特徵發現表述之間的隱含關係，從而提高模型的性能。

基於深度學習的方法

深度學習利用了word embedding、LSTM和Attention等方面的內容。進一步實現了end to end的模型，並且提升了整體的性能和泛化能力。

總結與展望

總結：

模型缺乏語義推理能力
缺乏共指消解的語料庫
模型效果過於依賴前置模型的性能

展望：

採用知識圖譜抽取開放特徵
更爲充分的利用無標註數據
利用好強化學習
更完備的end to end 模型

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

共指消解論文筆記（一）

共指消解技術綜述

摘要重點

引言

基本概念

共指消解的研究現狀

基於規則的方法

Hobbs算法

中心理論

基於機器學習的方法

監督學習

無監督學習

半監督學習

基於全局最優化的方法

基於知識庫的方法

基於深度學習的方法

總結與展望

公司新來一個幹練小夥，把 MyBatis 替換成 MyBatis-Plus，上線後哭暈在廁所。。。

10分鐘本地運行llama3及初體驗

Testin雲測上線華爲Pura 70系列真機測試服務！

TensorFlow1.x入門（1）——計算圖的創建與啓動

共指消解（一）

PyTorch入門（二）——張量的創建

TensorFlow1.x入門（2）——變量的定義及其操作

TensorFlow1.x入門（4）——線性迴歸

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結