大规模事理常识知识系统“学迹”的定位、应用与不足

我们于3月16正式对外发布了一个面向事理的实时学习和搜索系统Demo,取名叫“学迹”,取自“学事理,知行迹”(https://xueji.zhiwenben.com)。“学迹”的发布,进一步拓宽了现有知识库的门类,为进一步获取特定事件的概念解释、前序原因、后续结果、特定事件的关联结构化信息提供了一个快速可查的入口。

“学迹”自发布后,受到广泛的关注,也产生了不少疑问,如学迹的定位、学迹与现有其他搜索系统的异同、学迹的实用价值以及学迹背后的技术等。本文正是对这些问题的解答和说明,论述了“学迹”的自我定位、探索了“学迹”应用的可能性以及当前形态中所体现的不足,欢迎大家批评指正。

一、“学迹”的定位自述

“学迹”与Magi从界面感官来看比较相似,这引起了大家对两者异同性的疑问。实际上,这两个系统除了“长得像”之外,存在着很大的差别",皮肤一样,但里面的东西完全不一样。

  1. 不做"实体系统",而聚焦于“事件系统”

考虑到事件比实体具有更进一步的聚焦性和信息聚合能力,与通用的实体搜索不同,我们设计了一套以“事件”为核心的知识学习和搜索数据流。我们避开了类型众多且不可控的“实体搜索”,而选择了更为聚焦的“事件搜索”,我们约定,一个事件应该包括具体的施事主体和关联动作,如“人民币贬值”、“美联储降息”,对应其中的实体信息,我们将以“概念描述”的方式对其实体进行解释展示。

在这里插入图片描述

我们关注事件本身(社会对这个事件的理解,概念的理解)、事件之间的逻辑关系(事理逻辑,即更关注事件演化)以及在此基础上进一步形成推理规则。一方面,我们从零到一地研发了一套互联网采集引擎,每天数以万计的网络开源文本源源不断地输入到我们的实时学习系统中,并变成新的结构化事理、概念、产业链知识,并设计了一套可靠的知识可信度评分算法。另一方面,我们尝试了一种友好的方式来最大化地展示事理学习的动态过程,为了将事件与其他关联数据形成传导通路,以事件为连接中介,我们将概念、事件、产业、数据等进行关联,将事件相关的事物都有机地聚合起来。此外,我们尝试地做了一种基于推理可解释性的产业标的物预测,并试图基于这些知识试探性地往前走一步,做一些产业相关的推理和预测。

2)技术探索更垂直,围绕事件展开

"学迹"是一个实时的事理学习和搜索引擎(后面长期会保持这种形态),"事件"而非"实体"的定位,直接决定了其技术外延的不同,事件的知识挖掘和应用与实体的有很大的差异,这是点到面的差异。

在这里插入图片描述

"学迹"聚焦于事件识别、事件概念识别、事件逻辑关系抽取以及事件关联数据和融合等方面,在技术上也是截然不同的。具体来说,事件相关的技术包括一下几个方面:其一,立足于事件,需要解决事件的表示问题,确定事件的边界和形式化展现形式,这是事件挖掘中最不可回避的一个问题;其二,事件的体系是维系事件运作的一个根本支撑,事件之间的关联关系、事件的领域性建模都是要具体探索的点。

其三,事件的识别、事件之间关系的抽取、事件的融合与链接、事件的抽象和拓展、事件属性的抽取等环节,是实现事件库构建的必方式。最后,事件知识与其他知识来源(如实体知识、图像、音频、视频等多模态数据)的关联和融合,基于此延伸出来的事件搜索、事件关联、事件演化汇总等推荐技术,也是需要垂直深入研究的。

3)不仅是"知识库建设",更是"应用探索"

“学迹”通过将事件、概念、逻辑、实时学习、多类知识库实时更新相结合,沉淀出了千万级别的因果逻辑知识,千万级的事件概念知识以及数十万级的产业链知识,属于一种以“事件概念与逻辑”为核心的大规模常识知识库。在建库完成之后,基于事件概念、数据、实体产业链的关联,以此将事件之间进行互联,基于这种互联,“学迹”进一步地完成了事件及事件关联的终极目标的探索:模式推理和常识预测。

正如我们在页面中看到的,引入了关联数据、产业链推理,这相当于将事件和产业链知识图谱进行了结合,基于这些可行的显式推理因子,能够在可解释性上带来帮助。

二、“学迹”的应用可能性

“学迹”到底能做什么,这也是大家比较关心的问题,基于该系统的认识,我们认为,可以从以下几个方面来看:

1、基于“学迹”的写作及教育素材推荐

当前,AI写作是写作市场中的一个热门,如微软、腾讯、今日头条等都推出了相应的智能协作机器人,而针对更为广泛的领域来说,“人工编辑+机器推荐”的写作模式更具备可控性和落地性。对于“学迹”而言,其内部积累的各项事件关联结构化信息,决定了其作为“天然语料库”的特性。
在这里插入图片描述

情感类文章是我们常见的一种题材,而在实际的写作或者向他人进行知识传播的过程中,经常会因为苦于找不到“恰当的比喻”或者“深刻的认识”而陷入“素材荒”,“学迹”正好解决了这个问题。

以“爱情失败”为例,我们在“学迹”中找到了已学习到的“概念描述”和“因果逻辑”知识。当谈论起爱情时,“学迹”发现,人们对爱情的界定和描述千姿百态。爱情是“一物降一物”、是“对抗平凡日子的良药”、是“文学作品永恒”的主题、是“人类最美好、最圣洁的情感”等美好的形象,也是“一顿一顿吃出来”的平实,“一个光荣而又艰巨的任务”的现实,也是“诗和远方”。

而至于为什么会“爱情失败”时,“学迹”发现,是因为“触怒了丘比特”、“追不上汽车”,而当经历了“爱情失败”后,当事人将会很直接地出现“心理压力超越心理底线”的情况。因此,我们认为,尽管当前该知识库学习系统中所学习到的知识量并未能满足更大范围的搜索需求,但它能给出的这些结构化信息,确实能够为写作或者教育带来灵感上的启发以及材料上的支持,随着学习来源的扩充以及学习知识的准确性不断提升,这种支持必将更加有力。

2、基于“学迹”的技术和系统私有化克隆

从技术构成上来说,“学迹”包括“实时学习系统”以及“学习展示和搜索交互系统”,这两个系统可以根据用户数据的具体情况进行领域适应或“就地克隆”。

一方面,“学迹”以自然语言处理语义开放平台“数地工场”(自开放三个月以来,已累计向公众服务七万余次:https://nlp.zhiwenben.com)为技术基础,经过不断的抽取、学习、知识融合和更新,得到了当下的结构化知识库信息。后台积累的技术栈,包括领域事件表示,领域事件关系抽取、概念描述与对齐、产业链挖掘技术、知识置信度评估方案、实时学习与抽取方法,可以作为独立的技术模块抽离出来,形成一套领域事件学习系统工具。用户可以根据自有数据,引入这一学习系统并进行适配,从而对现有的私有数据进行抽取学习。
在这里插入图片描述

另一方面,“学迹”的页面和交互方式也可以作为一个工程化的“学习展示和搜索交互系统”抽离出来为用户提供数据适配。在整个搜索过程中所涉及到的Vue, Leader line、VisJS、highchart等实现动态数据关联、可视化图谱展示等功能的基础前端插件,与前端用户交互过程中所关联的问句解析、问句标准化、问句搜索与排序、关联推荐以及相关搜索等基础搜索组件,在实现对用户自有的数据进行接口适应,从而满足基于纯用户数据的展示和关联搜索的同时,也可以与“实时学习系统”一道,针对用户提供的非结构化数据源,提供一站式“采集-抽取-搜索”服务。例如,“学迹”首页中的“正在学习”模块以及展示页面中的leadline线条等展示形式,均可以实现对用户自有数据的适用。

在这里插入图片描述

3、基于“学迹”的信息聚合和可解释性推理

“信息聚合”和“可解释性推理”是“学迹”在“结构化知识实时学习”外的其他两个重要特征,这也是我们后面在“知识库”上应用的尝试和未来计划。

一方面,该平台以“事件”为核心,将结构化信息(包括事件关联概念描述、事件前因后果)以及事件外部关联信息(包括关联产业链图谱、关联数据指标、关联资讯)等多种信息进行了聚合。用户可以在自己输入的特定事件之后,得到多项“外延信息”。通过将事件与实体概念以及与产业链实体进行链接之后,实现了从事件到实体层的信息跳跃,以及从事件因果逻辑网向产业链上下游节点的联通,进一步延伸了事理影响的范围;将事件与具体的数据指标进行关联,实现了从“定性知识”向“定量知识”的转变。这些信息之间的联通、跳跃以及转变,体现出了“学迹”对“信息聚合”的新思考。
在这里插入图片描述

在这里插入图片描述

另一方面,“学迹”中的事理逻辑(前序原因和后续结果)和产业链图谱信息,赋予了该系统“可解释性推理”的物质基础。该系统基于大规模可信文本来源抽取、抽象和积累形成了先后因果传导模式,关联了上下游节点(包括上下位节点、生产材料、生产关系、依存关系、主营产品、所属行业及板块)之间定向联动传播模式。两种模式,可以在相应专家推理规则的约束和组织下,在给出初步推理结果的同时,给出可视化的推理路径。
在这里插入图片描述

在这里插入图片描述

这一推理路径的可解释性具有较高的意义,这也是现有知识图谱推理的一个典型特点,一方面,可解释性为用户提供了一个可以纠错的接口,针对给出的产业链推理路径,可以根据自己的判断进行纠偏,从而保证传导的准确性;另一方面,这种可解释的模式,也可以为后期更多的路径构成来源起了个好头,将事件更多关联信息(包括事件的同级信息、关联信息、以及上下位抽象关系路径等)进一步纳入进来,可以使得这种推理更具可靠性和鲁棒性。

三、“学迹”抽象知识的局限性与不足

“学迹”,是一个大规模事理常识知识库,其内部知识构成是对现实生活和社会发展过程中一些“显而易见的知识”或“专家系统”的高度抽象化总结,“高度抽象化”是该类知识库的一大特点,任何不必要的成分,如时间信息、计量信息、时态信息均被“隐去”,这是一个自下而上的总结概括过程。“模式”是这一“高度抽象化”的直接结果,更具备通用性和覆盖度,大部分具体而微的事件和逻辑都是在这一条件下做的属性添加或者变更,换而言之,人们可以通过这类知识库,得到一个更宽泛的一个结果。

在这里插入图片描述

然而,这种过于抽象和结构化的知识库在具体而微的信息表达能力上显得比较薄弱,这也是当下各种常识知识库的一个通病。正如“学迹”所表达出来的感官效果一样,结构化知识的罗列以及抽象性结构化知识带来的外部信息缺失,使得它在“因时而异”、“因地而异”的表达上显得较为欠缺。2020年3月3日,美联储突然宣布降低联邦基金利率50个基点至1%-1.25%,以应对新冠肺炎疫情给经济活动带来的风险,并打响了全球央行联手行动的第一枪,其他国家进行了相应的跟随行动。在目前的“学迹”知识库中,可以得到关于“美联储降息”在“抽象模式”下的事件汇总:

在这里插入图片描述

然而,时效性,细节性(主要突出地表现在5W1H)是事件挖掘以及事件系统中较为重要的两个重要因素,一般而言,一个事件应该包括自身的属性信息,如最根本的时间信息。“美联储降息”这个事件在历史上发生过多次,而每次降息的背景都不同,虽然可以将降息背景大致归结为“危机”,但不同时刻下的“危机”具有很大的区别。

“学迹”针对这一事件所展示出来的结果,是一个全集,而将这些更为细节的信息保留下来,对不同时间、不同地点等更多方面的事件细节进行区别并显示,可以进一步增强该事件逻辑知识的特殊性和独立性。因此,将更具有“事例”和“体系”属性的事件关联知识建设,以及基于该知识库实现的应用探索,将是后期“学迹”要着手的工作。

四、总结

我们于3月16正式对外发布了一个面向事理的实时学习和搜索系统Demo,取名叫“学迹”,取自“学事理,知行迹”(https://xueji.zhiwenben.com)。“学迹”的发布,进一步拓宽了现有知识库的门类,为进一步获取特定事件的概念解释、前序原因、后续结果、特定事件的关联结构化信息提供了一个快速可查的入口。

“学迹”与Magi从界面感官来看比较相似,这引起了大家对两者异同性的疑问。实际上,这两个系统除了“长得像”之外,存在着很大的差别":“学迹”不做"实体系统",而聚焦于“事件系统”;“学迹”不仅"知识库建设",更是"应用探索";“学迹”技术探索更垂直,紧紧围绕事件展开。

关于“学迹”能做什么也是大家比较关心的问题,基于该系统的认识,我们认为可以至少有以下三种应用:

1、基于“学迹”的写作及教育素材推荐;

2、基于“学迹”的技术和系统私有化克隆;

3、基于“学迹”的信息聚合和可解释性推理。

正如“学迹”所表达出来的感官效果一样,结构化知识的罗列以及抽象性结构化知识带来的外部信息缺失,使得它在“因时而异”、“因地而异”的表达上显得较为欠缺。因此,将更具有“事例”和“体系”属性的事件关联知识建设,以及基于该知识库实现的应用探索,将是后期“学迹”要着手的工作。

项目地址:https://xueji.zhiwenben.com

关于我们

If any question about the project or me ,see https://liuhuanyong.github.io/

如有自然语言处理、知识图谱、事理图谱、社会计算、语言资源建设等问题或合作,可联系我:
1、我的github项目介绍:https://liuhuanyong.github.io
2、我的csdn博客:https://blog.csdn.net/lhy2014
3、about me:刘焕勇,中国科学院软件研究所,[email protected]

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章