实体消岐

NER:Named Entity Recognition
NED:Named Entity Disambiguation
wikipedia词条“Entity Linking”指出“NED is different from NER in that NER identifies the occurrence or mention of a named entity in text but it does not identify which specific entity it is.”。

在非结构化文档中,由于书写风格和上下文的需要,同一个命名实体实体可能包含多种形式的表达,同时文档中的一个名词可能从字面意思上对应多种命名实体。考虑实际案例:论文中作者的名称变体(Zhang San, S. Zhang, San Zhang),不同人物的相同名称(Li Wei是多个人的名字)和名字拼写(Zhang Sen)错误。 由于不可能为每个名称分配唯一的标识符,所以在许多情况下,如果人们使用名称来识别指定的命名实体,则可能会导致混淆(也称为名称模糊, Name Ambiguity)。 具体来说,该问题通常被划分为两个角度来研究。

  1. Reference Disambiguation
    主要解决一个命名实体有多种形式表达的问题,如在多篇文档中包含”Zhang San”, “S. Zhang”, “San Zhang” (这里认为它们指代同一个实体),将包含这些名称变形的划分为同一个簇,我们可以获得该命名实体更为详细的知识。
    无监督:为了实现这个目的,传统的方法往往利用文档的多种信息作为特征输入,包括:文档标题,摘要,共同作者,两个不完全相同名词之间的相似度(S. Zhang与San Zhang的编辑距离很短,较为相似)。随后,基于这些特征,任意两个名称之间的相似度可以根据人为设计的相似度函数给出,多种聚类方法均可以被用来获取真实的命名实体变形集合。此外,这些聚类方法往往与基于相关关系的图模型方法结合使用,以实现名称变形体的聚类。
    有监督:考虑简单的分类问题,对于100个命名实体,我们可以根据训练数据(文档中包含名称变形,标题,摘要,文章类别或说topic) 构建Naive Bayes和SVM分类器。对于一个新样本(名称变形),我们可以根据基于分类器实现划分。

  2. Name Disambiguation
    主要解决同一个名称对应与多个命名实体的问题,如“Wei Wang”可能是多个人的名字。Name disambiguation 的目的就是要根据文档的上下文信息(或者说名称在文档中的特征)将包含“Li Wei”的文档集合进一步划分,以找到我们真正想要的检索文档。其实,Reference Disambiguation中很多思想都可以被用来实现Name Disambiguation.
    下面我们考虑一个如何计算不同论文中“Wei Wang”相似度的案例:(这里考虑6篇文献)
    这里写图片描述
    基于图的消歧算法, 其算法流程:首先构建关于作者名 A 的合作者关系图, 其中节点表示作者的名字, 不同的 A 节点表示在不同文献中出现的作者 A,而其他合作者名字则用一个节点来表示,边表示合著关系, 之后选择图的有效路径, 计算不同的 A 节点之间的相似度,最后采用 聚类法对不同的 A 节点聚类

References:

  • Fan X, Wang J, Pu X, et al. On Graph-Based Name Disambiguation[J]. Journal of Data & Information Quality, 2011, 2(2):1-23.
  • On B W, Lee D. Scalable Name Disambiguation using Multi-level Graph Partition[C]// Siam International Conference on Data Mining, April 26-28, 2007, Minneapolis, Minnesota, Usa. DBLP, 2007.
  • 宋文强. 科技文献作者重名消歧与实体链接[D]. 哈尔滨工业大学, 2012.
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章