浅谈事理图谱认知:系统体系+领域收敛+人机协同+辅助范式

事理图谱,不是简单的事件识别和事件关系识别以及事件三元组存储,是一个需要健全事件体系牵引、具有领域收敛特性、在构建上需要人机协同,在应用上拥有多种辅助范式形成的系统体系工程。–刘焕勇,于中科院软件所,20191012

事理图谱,不是简单的事件识别和事件关系识别以及事件三元组存储,是一个需要健全事件体系牵引、具有领域收敛特性、在构建上需要人机协同,在应用上拥有多种辅助范式形成的系统体系工程。

一、知识图谱的认识

1.1、教材中的知识图谱认识
知识图谱是什么,有太多的理解,在工作过程中遇到一些朋友的需求,很多都是凭着对知识图谱那张可视化的图的记忆来看说,能够帮他们做知识图谱,这难免暴露出现在行业创新的急躁。
当然,对于知识图谱是什么,教材是最好的例子,目前先后有高教社赵军老师团队的知识图谱,电子工业出版社肖仰华老师的知识图谱概念,也有陈华钧老师的知识图谱构建实战。第一本教材很偏学术理论,从知识工程的角度上来说的知识图谱,作者都是做实体关系抽取、事件抽取等总结的经验;第二本教材很偏抽象的概念,给人一种满满的准则感觉,第三本教材则是偏向于语义网的角度上来说的知识图谱,离实际应用还有些距离。
1.2、实际工作中的知识图谱认识
实际上,图谱,这个圈子很小。以图谱方式进行知识单元节点形成的相关工作,都被有意无意地归类成知识图谱,形成了广义而粗浅认识的知识图谱(外行知识图谱),狭义而精细的知识图谱(内行知识图谱)。而随着大家对知识图谱认识的加深,就像一个月饼里原先包的是豆沙馅儿的换成蛋黄馅儿的,本质上没有太大的差别,这里的本质,在这里,更多的是图谱的架构问题。

二、从知识图谱到事理图谱的认识

2.1、认知智能与知识图谱
知识图谱是认知智能的语义基石,基于知识图谱中所存储的知识,机器可以像人一样去进行知识应用,知识推理笔记看过很多博文的人都会有这种的认同感,这没有什么问题。认知,是人类相较于其他动物最大的区别,在我看来,认知能力主要包括概括能力和类推能力两种,概括能力是能够基于大量既定事实总结经验规律模式,并形成具有一定层级的模式思维能力。类推能力,更像是概括能力的反向用力以及应用,即常说的思考或举一反三。因此,既然认定知识图谱是认知的基础,那势必需要满足这两种基础,即概括基础和类推基础。
概括基础形式化体现出来,是具有概括性的能力,以概括抽象性的能力以及抽象概念性知识库作为输出。说到这个,又要说到人的认知体系问题,人类的认知体系是以名词性实体为核心还是以动词性事件为核心的,不同的核心决定了不同的概括需求。事实上,作为一个由社会活动驱动的人类,是动词性事件为核心的,动词性事件支配名词性实体,因此概括性能力应该包括名词性能力和动词性能力。但即便是如此,人类在显式的表达自己的知识时,还是以选择名词性实体进行表达,是因为名词性实体比事件更为细粒度,也更为稳定,也是好习得,好操作,即先知道what is what再知道do what 。
2.2、名词性实体知识图谱与动词性事件类图谱
名词性能力这方面代表性的工作有大词林、wordnet,这两个是我认为真正意义上做到这点的工作,一个是抽象,二是分层,没有进行分层的概念性是零散的(一堆高度稀疏的isa),这方面的工作包括cnprobase,以及conceptgraph。但是,对于这种概括性知识图谱而言,还是基本上集中在名词性实体上,究其原因,一是因为好建模(可以利用实体链接,背后有百科类实体作为支撑,好操作),二是因为数据的可获得性,有大量认为预定好的层级(目录树,网页导航,黄页)等。当然,在这个方面,各大电商,医疗,工业,领域等积累了大量的材料,如阿里商品等,基于商品的挖掘,可以快速搭建一个面向商品消费的层级性实体概括性知识库。
动作性的概括性图谱目前还相对空白。与名词概括性图谱不一样,名词性的概括性可以用is-a表达,而动词性概括图谱更多的是一种part-of关系,事件具有组成性的特征。相关的工作更多的是集中在事件的逻辑性的挖掘上(因果逻辑,条件逻辑,上下位逻辑)。有必要说明的是,其中的上下位(包括基于名词性实体的上下位以及基于动词性实体的上下位)是这种概括性图谱中的一部分。比如结婚这个动作,包括领证、办喜酒、发请帖等几个组成性事件。前者所描述的是一种诸如货币贬值下的美元贬值、人民币贬值、日元贬值。一种在形式上有交集,可以找到规则,另一种没有形式规则可言。所以,前者的挖掘难度要比后者简单地多,而意义上后者则要强得多。
2.3、事件类图谱:向上概括的抽象事理与向下泛化的领域事件拓扑
同一个事件知识,如果只关注单个事件集合之间的关系(上下位,组成、因果、时序),那么就会走向具有三层结构的事件类知识库(抽象事理图谱),这类图谱的特点是只考虑事件名以及事件名个体经过加工、抽象、模式规约后形成的体系关系,而不考虑具体的事件富信息。其中的三层结构,第一层是事件顶层,也可称为事件类型,用最顶层的事件类型名称对下沿事件进行统筹。第二层,是事件抽象模式层,也叫事件类簇代表,统筹基于该事件模式下存在不同表述的事件个体。第三层,是事件事例层,属于具体的事件名称(如巴西发生大火)。
与漫步的抽象事理图谱不同,它考虑的更为周全,且体现在领域性上。周全,即在满足事件名的基础上,能够以事件槽的方式挖掘事件的不同侧面信息,例如杀人事件中的时间、被害人、犯罪嫌疑人、地点等。领域性,即该事件领域的刻画,领域的事件具有领域的属性特征,具有领域的槽位侧面,用于描述领域性的事件信息。当然,这种领域性包括通用领域和垂直领域(金融、社会治理等),领域的槽位数量和角度都各不相同。领域事件图谱借助这种信息的复杂性,能够支持更多方位的信息检索、分析和追踪服务。但往往会因为包袱过重,无法大规模施展开来。这种包袱体现在槽位的定义,事件的定义上,通用的槽位数量太少(如SEM设计的事件本体)不足以体现领域特性和功效,领域的槽位(如ACE实在有限,framenet略多实则有限)需要精心设计,不具有扩展性,工程周期长。
漫步与包袱互助,事件快跑。抽象事理图谱甩掉了包袱,在抽象概括性知识上深耕,事件类图谱在实例事件上小步慢行。两者分别从向上和向向下两个角度在做(脑补亚里斯多德与阿基米德的画面)。两者融合是一个大方向(或许早已有之,但没有大规模工程化,技术手段需要深思考)能够树立起整个事件知识基石。抽象事理图谱的技术难点和核心在于“抽象”二字,把握抽象粒度,动态变通事件体系,在此基础上再进行平级逻辑挖掘,终极目标在于抽象能力的自主习得和体系的自我构建、更新与完善。领域事件类图谱核心和难点在于“领域”两个字,自动梳理和划分领域事件类别,自我习得既定类别的具体槽位,突破人工手动,解放业务专家。两类图谱,以事件名或者事件实例作为中间键进行连接。

三、事理图谱的应用认知

3.1基于事理图谱的可解释性推荐
基于事理图谱的可解释性推荐,是沿袭知识图谱可解释推荐的应用特性来说的。事理图谱中包括丰富的事件逻辑关系,包括纵向方向上的上下位、组成关系,横向方向上的因果、时序关系,也包括事件丰富的槽位信息(不同的侧面),这都为可解释性推荐提供了数据基础。
从应用形式上看,包括基于上下位关系进行推荐,例如根据货币贬值,推荐美元贬值、人民币贬值等;基于组成关系进行推荐,例如根据结婚这一事件场景,推荐订婚、领证、买婚纱、买戒指等;基于因果、条件等预设性逻辑关系进行推荐,例如根据暴雨,推荐受灾、抗洪等;基于时序性关系进行推荐,例如根据买票这一事件,推荐刷身份证、坐车等;基于关联实体知识图谱的实体推荐,例如根据范冰冰偷税漏税,推荐关联的股票如唐德影视等;基于事件属性槽面值的相关性推荐。例如,地震这一事件,可以推荐地震级别高于5级的地震,震源深度小于20km的地震等。
从实现技术上来看,可解释性推荐包括基于事理图谱的可解释推荐应用需要用到事件识链接、推荐算法。其中:事件识别指识别出给定文本中的事件片段或事件名称,事件链接指将识别出来的事件在整个事件库中找到唯一的链接事件。事件识别可以借助事件名匹配与切分的方法,也可以借助序列标注的方式进行事件名的识别,也可以结合依存句法等特征相结合的方式完成事件识别。在事件链接上,可以采用实体链接的方式进行链接,通常可以表现为借助上下文表征或者词干化的事件相似度计算方法。事件推荐技术指的是可以根据事件子图匹配进行推荐,也可以对事件进行建模进行匹配。另外,推荐也可以通过内置的推理路径规则进行推理指导,给出相应结果。

3.2基于事理图谱的问答系统
基于事理图谱的问答与基于知识图谱的问答类似,目的是以用户一问一答的方式完成对特定知识的获取,例如特定任务的办公流程询问,围绕特定实体展开的相关事件获取,获取特定事件的前序和后续事件的获取,基于问答者输入特定事件的标的物影响获取等服务。
从技术实现上来看,基于事理图谱的问答系统包括事件识别链接、事件操作意图的识别、问答查询转换与生成三个重要技术。事件识别链接指的在用户的自然问句中进行事件所指(even mention)的识别,并链接到已有的事理图谱当中;事件操作意图的识别指的是识别出用户自然问句中希望完成的事件相关操作,即事件的逻辑关系、事件的关联属性等;问答查询转换与生成,指的是将解析生成的事件及目标操作意图转换成可供图谱查询的语句并执行查询返回结果。事件识别链接是其中的一个难点,用户的自然问句形式可以多种多样,同一个问句中也很有可能包括多个事件,需要准确地识别出事件边界。除此之外,基于事理图谱的会话管理与控制也是保证多轮问答成功性的必要条件。

3.3 基于事理图谱的标的预测
所谓标的预测,指的是与事件相关的标的物预测,例如股票价格、期货收盘价、商品价格、货物产量等的预测。
传统的标的物预测,往往是基于量化数据进行的预测,而近年来,基于文本的预测工作逐步展开。以预测股票价格为例,可根据股票的新闻文本进行文本-价格建模,形成基于文本的预测模型。在这个建模过程当中,可以根据具体的文本进行向量表示,向量化的方式包括:基于全文的向量化表示、基于全文摘要的向量化表示、基于词的(关键词、主题词、实体词)的向量化表示、基于元组的向量化表示,此外还可以加入情感极性、主观性等特征融入到上述向量化表示当中。
事理图谱的出现,为标的物的预测提供了两个方向。即:基于事件链接和标的物关联路径匹配的预测,融合事件图结构表示的标的物预测。基于事件链接和标的物关联路径匹配的预测指的是基于已有的事理知识,对文本中的事件进行识别和链接,通过关联的标的物路径,形成对标的物品方向性的预测;融合事件图结构表示的标的物预测,指的将基于链接的事件,将事件中的各个维度特征融入到图结构当中,通过预先标注关联的标的物及其变化方向,训练分类模型,从而实现标的物的最终预测。

3.4基于事理图谱的实证性素材验证
所谓事理图谱的实证性素材验证,是作为一项辅助逻辑正确性以及写作推荐的应用提出的。由于事理图谱中的事件实例层中积累了大量的事件原始描述,这些原始描述都来源于某个文本,具有一定的上下文信息,形成了丰富的事件素材。这个可以在以下几个方面发挥作用:
1) 基于事理图谱的写作素材推荐
基于事件实例库,写作者在叙写某个事件时,可以将该事件的原始描述和事件上下文进行素材的推荐。典型的,可以充分利用事件之间的逻辑关系进行关联事件推荐,如给定事件推荐该事件发生的条件、后续的动作、引起的结果、相关联的上位事件和组成事件等。
2) 基于事理图谱素材成立性验证
事理图谱素材成立的验证指的是针对写作者所列举的事件关联性,给出具有实际可供验证的描述性文本。例如给定一个特定的因果事件对:猪瘟->猪肉价格上涨,可以从事件实例库中找到支持该事件对的原始描述。

3.5 基于事理图谱的增强型舆情监控

所谓增强型舆情监控,指的是充分利用事理图谱知识刻画优势和结构优势进行的舆情监控增强。舆情监控,指对特定文本进行文本情绪、传播、演化等计算。就目前而言,舆情监控的主要集中在对特定网站或文本进行采集,通过主题分析,情感计算,热点发现与统计、标签化等手段进行舆情建模。而基于事理图谱,可以从以下几个方面进行增强:
1) 特定信息的采集
在采集上,大都基于关键词搜索的方式来获取某一关注事件的文本信息,为了扩大文本的召回,大都会采用关键词扩充的方法加以拓展(如采用同义词表、近义词表等)。而若以前置构建好的事理图谱作为知识基础,可以充分利用事件词之间的各类关系进行扩充,如上下位关系,组成关系,因果关系,顺承关系等,因为从本质上来说,这类事件直接有些很强的紧密结合性和相关性。这种扩充,一方面可以提升监测的广度和完整性,另一方面也隐性地将网页文本套进了事件体系之中。
2) 特定事件的分析
如果有实现构建好的事件层级,那么在对事件的分析上就更具备有针对性,即可以预先了解需要分析的角度。如分析银行降准这个事件,可以从降准的粒度、降准整个体系、降准的方向、降准实施者、降准所带来的影响、降准的起因等几个角度去进行全方位分析,不再局限于某一个点。如此一来,得到的结果也能更为多元化且有说服力。
3) 预警性事件的监控
预警性事件,指的是基于已有事理图谱中存在时序或因果逻辑关系的后续事件。如猪瘟事件出来之后,根据已有的事理逻辑关系,可以得出猪肉价格上涨,出栏率下跌,饲料价格下跌等多个后续事件,而后续事件不会全部或者一直发生,往往是个别事件发生,或者极少数事件持续发生。这时,通过对这些事件进行监测,能够针对性地筛选出个别事件自己极少数事件,这对于后期的控制和预警具有很大帮助。此外,还可以在事件中融入一些具有风险性和标签化的手段,对事件本身贴上一定的类别标签,能够进一步增强预警性事件监控的有效性。

6、基于事理图谱的知识管理
所谓基于事理图谱的知识图谱,指借助事理图谱中以事件为核心,事件体系为整个骨骼支撑起来,对具体事件、实体、逻辑等的统一管理。知识管理是知识情报管理中的重要组成部分,包括对不同形态的知识单元进行存储管理,实现对知识的收集、增添删除、编辑改写、查询等。事理图谱的出现,为知识管理提供了以事件体系为架构的知识管理新模式。
以事件体系为架构的知识管理可以形成一个领域事件管理平台。具体包括事件的体系定义模块、事件知识的编辑模块、事件知识的更新模块、事件知识的导出模块。事件的体系定义模块指使用者根据领域特性,自顶向下的事件的层次体系,相当于事件知识的多级目录。事件知识的编辑模块包括对事件的录入、事件的删除、事件的导入、事件的关联等操作;事件知识的更新模块指对现有数据进行更新,包括自更新和用户手动更新两种模式,同时也包括对事件知识的版本更新问题。事件知识的导出模块指的是对现有事 件知识进行导出、备份以及共享,用于后续事件分析、事件保存等用途。
与基于知识图谱的知识管理不同,以事件体系为架构的知识管理可以充分发挥出事件层级性结构信息、事件的逻辑关联关系、事件的关联实体信息等,具有更大的知识统筹能力,将实体性知识与动态性事件知识结合在一起,并将视频、音频、图片等多模态信息进行关联,更具备全局性。

7、基于事理图谱的文本表示模型
所谓事理图谱的文本表示模型,指的是借助事理图谱的知识组织体系,用於单个文本或多文本的结构化表示,这种结构化表示包括形式化的表示和分布式的表示。形式化的表示,指以事件节点和事件关联实体进行表示,分布式的表示,指充分利用事件图谱的网络拓扑结构将形式化的事件结构化应设成一个低维稠密的向量表示。
传统的文本形式化表示主要有以词为单位的,以句子段落为单位的,以信息元组为单位的。其中以词为单位一级的有高频词、关键词、实体词、主题词这四大类,分别从文本中词语的高频出现、关键区别能力、实体性以以及主题三个方面出发,在技术上分别对应于高频词提取、关键词提取以及实体识别;以句子为单位的,主要有摘要或简写的形式,分成生成和摘取两种,生成指根据全文自动生成若干个没有在原文中实际出现的句子。摘取指从全文的句子集合中筛选出重要的句子,加入连贯性等操作,形成的句子集合;以信息元组为单位的,包括二元组字典形式,如以what、when、where、who为键相应数值为值的存储形式来揭示单个或多篇文档中的各个不同侧面信息;也包括以主谓宾为结构的三元组形式,其中主语和宾语可以唯一的缺失。
基于以链图为单位的表示方法。指将词、句子段落、信息元组通过某种关联规则进行连接,形成一种具有链图结构的文本图表示。如将信息元组根据元组的共同起止元素进行首尾相接,就可以得到一个有向有环状的文本链路图。基于这个文本链路图,一方面可以较为清晰地看出整个文章的行文脉络,如在记叙文中看出事件的演化顺序,议论文体中看出主题的论点网络。另一方面,可以揭露出关键信息之间的网状逻辑关联信息,为后续基于该结构化图谱的应用包括基于文本的问答、信息检索、交互性可视化等提供支持。

四、事理图谱的技术体系认知

4.1事件表示技术
事件表示包括形式化事件表示和分布式事件表示两种表示方法:
1、形式化事件表示。指运用形式化数据结构对事件进行表示,具体有以下几种:
1)事件字典形式。以key-value事件元数据对进行事件表示。如针对地震这一事件,可以以地震的地点、时间、震级、震源深度作为k,相应的值作为value,作为事件表示。
2)事件三元组形式。事件三元组,与知识图谱知识三元组相对应,显式地表示称<subject,predicate,object>的形式,其中,subject和object可以缺省,或者以某个特殊标志符进行表示。
3)事件字符序列形式。事件字符序列形式,指的是以自然语言形式对结构化事件进行口语化复述的自然语句片段,这个片段可以是一个短语,也可以是一个短句,也可以是一个长句或者段落。
形式化事件表示的优势在于可以让人可清晰、明了的看到一个事件的整体描述,难度在于无法直接交给计算机进行处理,为此,往往需要对这种形式化的事件进行分布式表示,编码成一个低维稠密的事件分布式表示。
2、事件分布式表示。指的是将事件映射成低维稠密的向量形式。主要有以下几种方式:
1)事件字典形式的向量化。这个可以采用类似于onehot的形式,针对字典的所有key,可以将key作为向量化的维度特征,每个value作为向量化的一个具体的值。这种表示方法在事件类型较多时,会出现稀疏的问题。
2)事件三元组形式的向量化。这个时候可以利用类似于trans系列的事件建模思想,得到subject,predicate,object的向量化表示。基於单个元素的向量化表示,可以通过拼接、加权求和等方式得到整个事件三元组的分布式表示。当然,还可以在这种表示的基础上加上其他的特征,如时态、情态、标签等特征。
3)事件字符序列的向量化。事件字符序列已经是一个文本字符串,这个文本字符串可以利用常用的文本表示方法进行表示,传统的onehot,基于char-embedding,token-embedding,ngram-embedding进行的加权表示,基于sent2vec,skip-thought等的方式进行预先深度学习表示。

4.3事件抽取技术
事件抽取技术是构建事理图谱的最核心技术部分,从抽取技术上来说,可以细分为事件抽取和事件关系识别两个组成要素。从抽取的文本对象来说,可以分成基於单句、跨句、段落以及篇章的事件抽取。

  1. 事件名称抽取
    事件抽取包括事件mention抽取和事件元素抽取,事件mention抽取指在文本中识别出事件的描述性片段,即事件名称,该名称通常包括事件的触发词,该触发词唯一地规定了该事件的事件类型。事件mention的识别包括基于开放事件抽取的方式、基于给定触发词的规则识别、基于序列标注的识别、基于阅读理解问答的识别四种方式。基于开放事件抽取的方式将事件名抽取的问题转换成一个事件主谓宾三元组的抽取问题,包括基于依存句法及语义分析的规则式抽取、基于序列标注的主谓宾三元组抽取方法。基于给定触发词的规则识别,指通过制定特定的事件触发词,围绕该触发词设定事件名识别规则如事件长度、事件单位、事件成立性要素等识别出事件描述片段。基于序列标注的识别,指通过训练连续事件字符序列模型,对给定文本识别出事件的起始位置和终止位置。基于阅读理解模型的事件名识别,指运用阅读理解模型对给定文本,以答案作为原始事件序列的方式训练问题-文本-答案三者的模型,很对给定文本识别出新事件的起始位置和终止位置。
    2)事件元素抽取
    事件元素信息抽取,指抽取该事件类型所对应的事件槽位属性信息,如结婚事件中的结婚时间、结婚人物、结婚地点等信息。
    基于串行方法的事件元素抽取将整个流程分成事件触发词识别、事件分类、事件元素候选识别、事件元素角色标注几个步骤,通过对事件名称进行触发词识别,再进行事件分类,并触发相关的事件要素进行实体识别形成候选事件要素,并将候选事件要素与事件触发词组成对,对候选事件元素进行角色识别,放入指定的事件槽中。基于并行方式的事件元素识别直接对整个输出端进行标签序列化,利用端到端的模型一步到位地得到各个事件的元素以及元素角色。
    从实现方法的类别来看,该抽取主要包括基于句法模板规则、基于分类的方式、基于序列标注、基于阅读理解多轮问答的方式,从实现的流程上来看,包括基于串行的事件元素抽取和基于联合的事件元素抽取。基于句法模板规则的识别,指结合依存句法,语义分析,在经过候选元素识别后通过句法和语义上的路径对事件元素进行定位。基于分类的方式将事件元素的抽取转变成一个基于多步骤分类任务,通过分类模型得到候选事件元素,通过分类模型对处触发词-事件元素二元组进行语义角色分类,如此集成多个分类器。基于序列标注的方式,则将事件元素的抽取过程转换成一个事件标签的预测过程,标签对应于事件的元素角色。基于阅读理解多轮问答的方式,将事件元素抽取转换成一个人机多轮交互问答的方式,通过迭代地询问某一事件的各个元素,并将得到的答案进行替换形成新的问句,循环迭代下去,最终得到每个槽位对应的事件元素。
    3)事件关系识别
    事件关系识别指对给定两个事件,抽取出两个事件之间的逻辑关系的技术,具体逻辑关系包括因果、条件、顺承、组成以及上下位等逻辑关系。该关系的识别主要包括基于显式关系识别模板以及基于关系分类模型的识别方法。基于显式关系识别模板的方式通过结合语言学知识,如句子关联标记词、关联模式词等进行识别,也可以结合事件对中两个事件之间的位置信息,进行联合刻画。基于关系分类模型等识别方法,结合事件本身的特征以及事件对之间上下文特征,预先训练好逻辑关系识别模型对后续的事件进行识别。前者的可以不需要预先训练预料,充分利用关系之间的显性语言学特征快速识别,但对于隐式的事件对关系召回率很低。后者优势在于可以学习到事件之间的隐藏关系,但往往需要大规模高质量的关系分类训练语料。

4.4 事件抽象与泛化技术
事件抽象的目的是通过对既有事件,通过事件聚类以及事件模式挖掘的方式形成具有抽象层级性的事件体系。事件泛化,是对事件抽象的反向操作,基于已有抽象事件进行实例化事件生成。其中,事件抽象技术,包括:
1) 基于外部层级性知识库的抽象技术
这个抽象包括名词性的抽象和动词性的抽象,通过对事件中的实体元素或者动作类词语进行识别或者链接,通过原先实体抽象路径进行跳转式抽象,逐步地、迭代地进行替换和向上回溯,就可以得到借助外部原有知识体系结构得到的概括性结果。这种技术有个很大的局限性,就是抽象的结果基本上取决于原先构建好的外部知识库,外部知识库一方面在数量上很难大规模建立起来,其次其准确性也至关重要。
2) 基于频繁搭配的模式规约抽象技术
与基于外部层级性知识库的抽象技术不同,该技术不依赖或不完全依赖于已有的外部层级知识库,而是将关注焦点转移到事件模式的规约和发掘上。频繁搭配的方式有多种,有基于共现、基于互信息统计、基于点间互信息的统计、基于相似度的方式等聚类方式。而其中的细节也包括对原始事件语句的常规处理,包括同义词、停用词的处理、句子主干成分的提取等。

4.5事件融合技术
事件融合包括两个方面的融合,即事件名称的融合和事件元素的融合,事件元素之间的融合可以解决事件元素的稀疏性。

五、事理图谱的工业化认知

1、 事理图谱的领域应用问题
事理图谱是一个具有多层级结构的知识库,但在回答在具体应用场景中是否应该使用事理图谱作为技术选型显得很重。经验的来说,选择事理图谱需要考虑以下几点:一是否具有事理图谱的可建模性。有的领域事件很少或很难对事件进行定义,往往在事理图谱的建模性上存在问题;二是领域事件或事件逻辑关系规模是否小型且有限,如果规模很小的话,那么直接使用人工构建的方式即可,可以不引入相关的自动化构建方法。三是可供挖掘事件或事件关系的文本可获得性,如果可获得的量非常少或极少,那么就缺少了整个事理运行的可能性;四是是否利用先前的知识库形式已经可以解决问题,例如是否是实体性知识图谱已经可以解决相关问题,如果能,则可以不使用该图谱技术。

2、事理图谱的人机协同机制
人机协同机制是整个自然语言处理领域保证工业化的真理。一方面,由于自然语言处理技术自身的局限性,在对事件以及事件关系体系的挖掘上,往往存在误差,而且这种误差会随着处理流程的链路不断传播,需要加以控制;另一方面,知识性的提取技术对知识的准确性上要求特别高,这种准确性的影响因素来源于本身知识输入源以及提取技术两个方面。知识输入源中的文本产生于人工,人工产生的文本会在常识表述、行文不规范上存在一定的错误,质量上参差不齐。在通过自然语言技术处理之后形成的数据自然就存在置信度问题。因此,为了充分保证较高的置信度,人机协助是最可行的方式。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章