论抽象事件与事件实例

问题的提出

我们"学迹"系统中,给出了以抽象事件为核心的事件关联信息。包括事件的因果关联(前序原因、后续结果),事件的概念描述,以及基于这种抽象关联和实体产业链做的推荐操作。

然而,这些结果给出来的,是一种高度抽象和模板化的结构化数据,体现出常识或常理的特性,对于实实在在的事件,其自身的特殊性还未能区别开来。因此,我在想,具体的事件应该是什么样子,其表现形式是如何的,又该如何获取?

事件实例

事件实例,是较抽象事件有更多信息的一个概念,也叫具体事件。比如人民币贬值,事件实例应该满足人民币贬值的幅度,人民币贬值的时间或持续时间等其他信息。但这往往会出现一个路径问题,就是事件实例,是应该走领域事件,还是走通用领域。如果走领域事件,就会落到具体问题具体分析的事件框架(ACE,framenet)中,这样势必会大大缩小事件实例的范围,其受众和价值会大打折扣;如果走通用领域,则需要定义出一些通用的领域属性,如时间、地点、幅度等。

我们选择了更为通用的这一类事件实例。但在实际的过程中,很明显的出现了一些问题。
1,我们在抽取逻辑的时候,实际上是在一个抽象的上下文中抽取的,所以,这个事件本身的描述信息就很少,这样会导致它的通用属性出现很多缺失值。
2,在出现很多缺失值的情况下,逻辑结果的这种区分能力就很差。典型的,只有时间信息的事件,会带来时间间断排列的问题。以人民币为例,我们会由于时间属性的问题,2019年以日为单位就会出现超过100多个点,这时,虽然可以以一些时间规约的措施如做聚合,但其粒度的控制,主观性较大。这会给整个前后台数据的交互,前端的界面的展示,带来很坏的影响。

为了实现从抽象事件到具体事件的对接,我们想到了一套方案,即抽象逻辑事件库对齐资讯事件库的方法。一头接着抽象因果事件库,另一头接着资讯事件库,希望两者能够进行对齐。因此,资讯事件库,就变成了一个重要的工作。我们应用了文章关键主题信息,事件主题句与事件短语组块识别的方式,针对给定的一个文章输出其对应的事件集合,集合中的事件数量通常为3-5个。在资讯事件库做好之后,我们通过两者的时间进行对齐,从而实现这两块数据的联通。

不过,做的过程中发现,这个逻辑有些问题。
1,资讯事件的来源为一篇新闻,一篇新闻中会出现多个事件,而资讯原文本身就是在描述某个事件的关联信息,事件存在于其中的某个句子中,而这个句子本身就是抽象的,因此,这并不会得到所谓的事件实例。
2,不同的资讯会抽取出不同的事件,而这些事件在进行融合时,

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章