实体消岐

实体消岐

NER：Named Entity Recognition
NED：Named Entity Disambiguation
wikipedia词条“Entity Linking”指出“NED is different from NER in that NER identifies the occurrence or mention of a named entity in text but it does not identify which specific entity it is.”。

在非结构化文档中，由于书写风格和上下文的需要，同一个命名实体实体可能包含多种形式的表达，同时文档中的一个名词可能从字面意思上对应多种命名实体。考虑实际案例：论文中作者的名称变体（Zhang San, S. Zhang， San Zhang），不同人物的相同名称（Li Wei是多个人的名字）和名字拼写（Zhang Sen）错误。由于不可能为每个名称分配唯一的标识符，所以在许多情况下，如果人们使用名称来识别指定的命名实体，则可能会导致混淆（也称为名称模糊, Name Ambiguity）。具体来说，该问题通常被划分为两个角度来研究。

Reference Disambiguation
主要解决一个命名实体有多种形式表达的问题，如在多篇文档中包含”Zhang San”, “S. Zhang”， “San Zhang” （这里认为它们指代同一个实体），将包含这些名称变形的划分为同一个簇，我们可以获得该命名实体更为详细的知识。
无监督：为了实现这个目的，传统的方法往往利用文档的多种信息作为特征输入，包括：文档标题，摘要，共同作者，两个不完全相同名词之间的相似度（S. Zhang与San Zhang的编辑距离很短，较为相似）。随后，基于这些特征，任意两个名称之间的相似度可以根据人为设计的相似度函数给出，多种聚类方法均可以被用来获取真实的命名实体变形集合。此外，这些聚类方法往往与基于相关关系的图模型方法结合使用，以实现名称变形体的聚类。
有监督：考虑简单的分类问题，对于100个命名实体，我们可以根据训练数据（文档中包含名称变形，标题，摘要，文章类别或说topic）构建Naive Bayes和SVM分类器。对于一个新样本（名称变形），我们可以根据基于分类器实现划分。
Name Disambiguation
主要解决同一个名称对应与多个命名实体的问题，如“Wei Wang”可能是多个人的名字。Name disambiguation 的目的就是要根据文档的上下文信息（或者说名称在文档中的特征）将包含“Li Wei”的文档集合进一步划分，以找到我们真正想要的检索文档。其实，Reference Disambiguation中很多思想都可以被用来实现Name Disambiguation.
下面我们考虑一个如何计算不同论文中“Wei Wang”相似度的案例：（这里考虑6篇文献）

基于图的消歧算法，其算法流程：首先构建关于作者名 A 的合作者关系图，其中节点表示作者的名字，不同的 A 节点表示在不同文献中出现的作者 A，而其他合作者名字则用一个节点来表示，边表示合著关系，之后选择图的有效路径，计算不同的 A 节点之间的相似度，最后采用聚类法对不同的 A 节点聚类

References:

Fan X, Wang J, Pu X, et al. On Graph-Based Name Disambiguation[J]. Journal of Data & Information Quality, 2011, 2(2):1-23.
On B W, Lee D. Scalable Name Disambiguation using Multi-level Graph Partition[C]// Siam International Conference on Data Mining, April 26-28, 2007, Minneapolis, Minnesota, Usa. DBLP, 2007.
宋文强. 科技文献作者重名消歧与实体链接[D]. 哈尔滨工业大学, 2012.

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

References:

Ubuntu 14.04 wubi 硬盤安裝 ~ linux小白

ps格式的論文轉pdf

徑向基函數（RBF）神經網絡

Logistic Regression

個人稀疏編碼筆記

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結