事件抽取与事理图谱(一)

事件抽取是信息抽取研究中最具挑战性的任务之一,其主要研究如何从非结构化自然语言文本中抽取出事件的基本信息,例如事件的类型,事件的参与者,发生时间和地点等,并以结构化的形式呈现出来。

一些信息抽取领域的国际评测会议针对事件抽取提出了一系列的理论,并推出了一些实用的系统框架:

 

 

 

事件,作为信息的一种表现形式,其定义为特定的人、物在特定时间和特定地点相互作用的客观事实,一般来说是句子级的。

组成事件的各元素包括:

 

 

 

 

例句:在Baghdad,当一个美国坦克对着 Palestine 酒店开火时一个摄影师死去了。

 

 

 

 

 

 

根据上述定义,事件抽取任务可以分成两个子任务,分别是:

事件触发词及类型的识别(基於单词的多分类任务)

事件元素的识别(基于词对的多分类任务,是一种角色关系识别)

 

例如,对文本“Intel在中国成立了研究中心”进行事件抽取:

第一步应该将“成立”识别成触发词,其触发了一个“成立机构”类型的事件;

第二步应该将“Intel”、“中国”和“研究中心”识别成事件元素,其角色分别为“设立方”、“地点”和“被成立机构”

 

 

表示一个动作的发生或状态的变化,往往由动词驱动,也可以由能表示动作的名词等其他词性的词来触发,它包括参与该动作行为的主要成分 ( 如时间、地点、人物等) 。

 

包括一类核心事件或活动以及所有与之直接相关的事件和活动,可以由多个元事件片段组成。

当前主要是面对元事件抽取,关于主题事件抽取的研究较少。

 

 

模式匹配

模式匹配在特定领域内能取得较高的性能,但移植性较差。

机器学习

无需太多领域专家的指导,系统移植性较好。随着相关语料库的建设和互联网上各种文本资源的不断丰富,语料的获取不再是束缚机器学习的瓶颈。

机器学习已成为元事件抽取的主流研究方法。

将事件类别及事件元素的识别转化成为分类问题,其核心在于分类器的构造和特征的选择。

 

2000 年以来, 对中文进行事件抽取研究主要以基于模式匹配的事件抽取算法和触发词法为主。算法使用频率统计如下:

 

 

实际上, 为了提高事件抽取的效果, 实际应用中存在将两个或两个以上的算法进行组合应用, 即首先使用某算法 ( 如先使用模式匹配法过滤非事件句后再用 SVM 法识别事件句, 使用 KNN 算法提取触发词再用触发词法抽取事件) 进行处理, 再使用其他算法进一步处理以提高事件抽取的准确度。

 

 

 

 

 

 

 

Context-word feature(CWF):将一个句子中的所有词作为上下文,CWF是一个所有字标记都被转换为词嵌入向量。#

Position feature(PF): PF被定义为当前词语与预测trigger以及候选argument之间的相对距离。相对距离有两个,一个是对于trigger,一个对于候选argument。

Event-type feature(EF):当前trigger的事件类型对于argument classification也是具有价值的。所以对在trigger classification过程中预测的事件类型进行编码,也做为DMCNN的一个重要线索,编码方式与PF相同。

 

 

 

识别出事件中的触发词和要素后,相当于识别出了事件语义图中孤立的节点和边,需要按照事件的约束进行组合形成事件。

识别出的节点和要素边可能有不合法的,在组合时需要去掉这些无效的节点和边。

事件后处理方法主要包括基于规则的后处理方法和基于统计机器学习的方法。

 

 

 

 

近来,针对事件抽取的工作大都集中在预测事件的 triggers 和 arguments roles,而把实体识别当作是已经由专家标注好了的,然而实际情况是实体识别通常是由现有工具包预测出来的,而这将会导致实体类型预测产生的错误传播到后续任务中而无法被纠正。

因而,本文提出一种基于共享的 feature representation,从而预测实体类型,triggers,argumentsroles 的联合模型。实验表明我们的方法做到了 state-of-the-art。

该模型由三个核心部分组成,分别是实体类型预测(Entity MentionDetection - EMD)、事件类型预测(Event Detection - ED)和语义角色类型预测(Argument RolePrediction - ARP)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

事理图谱,顾名思义,是以事件为节点,事件间的关系为边的图谱网络。

与知识图谱中实体及关系大多是稳定的不同,事理图谱中关系大多是不确定的,以一定的概率进行转移。

 

 

人类的命题记忆是以“事件”为存储单位的,以事件作为知识的基本单元更能反映客观世界的知识。

从认知心理学的角度来看,事件更符合人类的理解与思维习惯,事件关系到多方面的概念,是比概念粒度更大的知识单元。

传统本体(知识图谱)所使用的概念模型难以反映事件这一更高层次和更复杂的语义信息,模型缺少了更高层次的结构。

 

 

 

从知识图谱的本质上来说,是以传统本体概念为基础进行知识组织的,传统本体对于概念的描述着重对其静态特征的描述,缺乏对动态特征的描述。

知识图谱只能回答什么是什么的问题,从根本上来说也没有跳出“静态”这一属性。在诸如“怎么了”,“接下来会怎么样?”,“为什么”,“怎么做”等问题上,知识图谱显得有些乏力。

 

 

 

 

知识图谱的技术及应用相对已经开始成熟,但只是基于实体知识库,并不足以描述事件之间的演化规律,而事理逻辑对现实世界的行为推演尤其重要。

 

 

 

 

人工智能从感知到认知的发展,需要一个能思考、推理、联想的大脑!

知识图谱与事理图谱两者之间存在着诸多异同之处,体现在描述知识、研究对象、构建目标、知识形式等方面:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章