事理图谱:一种纯学术需求、无法落地、漏洞百出的新技术或新概念?

过去几个月,深陷所谓“事理图谱”当中,苦恼不已。从2018年4月份开始做所谓的“事理图谱”以来至今,磕磕碰碰,做了很多技术上的尝试,也不乏在应用事理图谱上尝试了多种做法,也不乏写了几篇关于事理图谱的文章(实际有未想明白之处)。现在写个阶段性的总结,以对过去在“事理图谱”中的工作进行一种反思,工程中的事理图谱要比学术报告PPT中的情况复杂的多,展示的图要乱的多,性能的数字少得多。。。。。

一、事理图谱是怎么来的?

“事理图谱”这个词是国内哈工大刘挺老师首次提出,与此同时较该团队之前有类似的工作,如中科院软件所、数据地平线公司的工作,也叫事理图谱。目前见学术文章的以刘挺老师的团队为例。英文版本,出现过EEG(Event Eventionary Graph),或后面的(Abstract Event Graph),或后面的ELG(Event Logical Graph),定义上而言,为“事件演化的规律和模式”。

二、抽象事理图谱VS知识图谱?

上面所说的事理图谱,实际上是“抽象事理图谱”,构成要素是抽象事件以及事件之间的关系,实际上并不是什么新事物。之前自己整理过一个关于事理图谱与知识图谱的对比图,现在看着,这种对比实际是有问题的:
1、 可比性。
事理图谱本身并没有跳出知识图谱的范畴,两者不是平级关系,没有可比性,真的要比,那么应该是实体知识图谱和抽象事理图谱。
2、静态与动态。
之前的说法是,知识图谱中存储的是实体,是静态知识,事理图谱中存储的是动态知识。这种说法是有问题的,静态和动态如何去区分?名词性实体就是静态的,动作性事件就是动态的?还是其中一个事件与另外一种事件之间存在着一种演化关系,这种演化性就动态了?
3、新一代的问题。
我在2018年12月份写的一篇文章中,介绍性地说,知事理图谱是下一代知识图谱,这种说法到现在我实在是比较难以认同(软文需要),因为我到目前为止还找不到这个“下一代”的证据。事理图谱并没有解决知识图谱的任何问题,存储方式,提取方法等等,没有发生根本性的改变。所以,不存在什么下一代的问题,事理图谱只是一种知识图谱变体罢了,旧瓶换新水,本质上并没有改变。

三、抽象事理图谱是纯学术需求?

对于事理是不是纯学术需求,这个论断困扰我很久,我越来越倾向于说YES。主要原因如下:
1、 抽象事件界定模糊。
什么是事件?什么是抽象事件?怎样才算抽象?抽象事件怎么去显示它?这一系列问题到目前并没有论述清楚。此外,抽象的层级又如何去界定?这些问题都没有解释清楚。
2、无法管理、建模能力差。
正是由于对这种抽象性的界定不清楚,所以无法对整个现实社会的事件类型进行建模,这里所说的建模能力,是指具有可枚举的层级体系的事件认知,但这个显然没有,没有体系的概念,即便可以引入上下位,那也是相当噪声的上下位,局部有效的上下位。没有明确的事件体系和事件类型,整个事理图谱中的数据犹如一盘散沙、形式混乱,这严重导致了事理图谱在管理、可用上的障碍。
3、事件的识别模糊。
抽象的事件,怎么去识别边界?整个事件的抽象问题都没有定义好,这使得抽取的过程沦为了一种思路,怎么抽都行。例如,“我吃了饭,然后去了学校”,识别的事件是“吃了饭”还是“我吃了饭”,“去了学校”,还是“去学校”。这种识别出来的抽象事件其实只是一个事件片段而已,就算抽取出来了,后续的一些再抽象等之类的算法,也只会造成误差传播,没法用。
4、事理图谱单事件对概率的无效性。
这里的无效性,指的是事理图谱在实际的应用过程中,这种概率的无效性,对于一个Ai会出来很多个Bj,针对每一个AiBj都会有条边出来。虽然可以利用统计手段,对事件的条件概率进行估计,或者放到图网络中随机游走给出一个实际的数值,但究其根本,取决于曝光度,那就是编辑们的曝光量,而一旦曝光少,但很有可能,这种统计方式是统计不到的。另外,每个AiBj发生的变量绝非单变量,相反多变量多的我们难以想象,曝光量仅仅只是其中之一。
5、事理图谱单事件链条的无效性。
另外一个方面是多度的误导性。一旦从Ai出来,不断往后延伸,会得到一系列的Bj,Ck,Dm…等等,越往后,整个链条的错误率其实越大,原因是:1)抽象事件本身的问题,事件的抽象问题把握不好,A到B还说的是猪肉问题,B到C已经说到感冒问题,这类问题其实特别常见,本质问题是这种事件的上下文信息即语境信息太少,传递下来,语境变化太差,整个传到逻辑就是错的。2)错误的传播。每条因果关系边都是失真的,让他不断地往后走,失真的会越来越厉害。3)整个传播逻辑的取舍难度大。假设前2个问题都已经解决,从一个起始事件到一个终止事件,可以有很多种路径,但哪条路径的可能性最大,在实现上是很大的问题。
6、对高质量海量语料的高度依赖
对语料的高度依赖性是所谓抽象事理图谱构建的最大问题之一。这种依赖性体现在“质”和“量”两个方面上,这里的“质”是对语料的质量来看,尤其体现在对事理逻辑的表达,因为有的事理不会很直白的表现出来,如政治领域中的文本,越偏向于对公正纯事实的报道就越不可能有事理逻辑的存在,抽象事理是对逻辑的总结,偏向于一种观点。“量”的表达,是另一个决定因素,如果数据量很少,那么即便“质”保证了,整个数量很少,也缺乏了实际意义。

四、事理图谱能用的先决条件

1、 完善的事件体系作为支撑与灵活可用的事件管理机制
以因果事理图谱构建的方式来看,属于一种围绕因果触发词出发的一种因果关联挖掘,而一直没有解决事件的这种抽象性问题,所以后续有事件融合(也称事件共指关系识别)、事件层次抽象的任务。这个任务的最终目标应该是建成一个可用的全局的事件类型体系,采用的是一种自下而上的方式加以构建,难度非常之大。即提出了一个现实问题:是否能够基于现有的大规模的基础数据,自动聚类和搭建起整个事件类型体系。
没有事件体系的事理图谱是一团散沙,有事件体系但缺乏事件管理机制的事理图谱则无法应用。这种管理机制,体现在对事理知识库的动态更新、多类型数据的管理上。
2、 高精准且模块化的事理组件
事理图谱中的事件体系问题是应该是决定事理图谱可用性的根本条件,首先提供高精准的事件类型体系构建方法是相当重要的,如何借助外部知识库辅助体系的构建,如何对冗余的事件体系进行剪枝,如何解决融合和共指问题,是决定体系的必要手段。此外,务必需要确定事理图谱中的事件定义问题,即3.1的问题。此外,语义外部知识库,这里的语义外部知识库包括各种,如同义词词林、hownet, conceptnet等。
3、 必要的领域专家接入
通用的事理图谱只能是死路一条。抽象事理图谱对事件的表示打破了领域与领域之间的墙,使得事理逻辑在不同的领域中随意穿行。领域专家接入,事件的领域分类、事件关系的领域分类都需要花费大量的力气去做。

五、总结

事理图谱,是一种纯学术需求、无法落地、漏洞百出的新技术或新概念?目前的经验告诉我,如果不解决以上几个问题,刻意回避事理图谱的一些本质问题,一味地扯概念,写技术展望帖、刷模型帖,不考虑实际应用需求,那么只能是纸上谈兵。毕竟,现在这样的氛围,太浓了。回到开始,事件体系+事件管理机制+领域事理+人机协同,真正把这个踏踏实实地做好,才能真正应用下去,我们团队,将致力于这方面的工作。

如有自然语言处理、[知识图谱、事理图谱]、社会计算、语言资源建设等问题或合作,如果对事件知识库有兴趣的落地或者研究,可联系我:
1、我的github项目介绍:https://liuhuanyong.github.io
2、我的csdn博客:https://blog.csdn.net/lhy2014
3、about me:刘焕勇,中国科学院软件研究所,[email protected]
4、懂预言者得天下,得语言者分天下,得知识逻辑者,游得天下。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章