论文浅尝 | Tree-to-sequence 学习知识问答

论文笔记整理:谭亦鸣,东南大学博士生,研究兴趣:知识图谱问答。


 

来源:Neurocomputing 372: 64-72 (2020)

链接:https://sciencedirect.xilesou.top/science/article/abs/pii/S0925231219312639

 

对于知识图谱问答来说,主要任务是将自然语言问题映射到具有相同意义的结构化query上。但是目前基于深度学习的方法都仅关注了问题和关系链之间的语义对应,而忽视了query的结构信息。这篇文章提出将query视作tree,从而将实体和关系的顺序信息也编码进它们的向量表示中,从而更好的划分给定问题的candidate query。

动机

目前的深度学习方法主要利用关系链匹配而非整个query匹配给定的问题,这种做法并不能有效利用query结构信息。

因此作者提出将candidate query的结构编码进它的向量表示中,从而强化它与给定问题的匹配准确性。

方法

             

 

图3是作者提出方法的整体框架,以问题“what character did natalie portman play in star wars ?”为例,整体的框架流程描述如下:

1. 约束链接 作者提出了三种约束将问题中的成分关联到知识图谱上:(i)实体,使用目前性能最好的S-MART实体链接工具完成链接。(ii)类型,在知识图谱中查询所有类型的type,当问题中出现了某种类型的查询词时,完成类型链接。(iii)数字,分为以下三种情况,单独的数字,比较性词汇+数字的组合,最值表示(最大最小最年轻等等),将对应类型的逻辑操作添加到query中。;

2. Candidate Query构建 本质上是给出几种可能对应问题的带有缺省值的子图,首先根据实体链接确定子图中的实体节点(图中的叶子节点),然后使用中间节点将它们连起来,并选择任一中间节点作为答案节点,(需要时)补充上类型约束以及数字操作之后得到Candidate Query。(有点像排列组合,作者在论文中对每个步骤做了详细说明,有需要的童鞋可以读读原文3.2节)

3. Tree-based Encoder 图4描述了本文提出的基于树的编码过程,在这个图中,与这两个实体-关系pair共同组成?x的描述,在这个方向中,所有的实体类型数字操作和关系等等信息都流向answer节点(作者称其为前向,反之则为后向),在这种形式下,词与词之间根据位置信息的不同,可以互相定义为:preceding,sibling以及following。这些结构信息使得那些节点相同(相似)的Candidate query由于位置信息的差异被区分开来。为了将这种结构加入到表示学习中,作者使用一个tree-based LSTM进行编码(对相关公式证明感兴趣的请见原文3.3节)。

             

4. Mixed-mode Decoder 在解码过程的目的是选出最为匹配question的candidate query,这里作者引入了两个解码模式,用以处理两种类型的query-question匹配:其一是generating mode,由一个使用QA pair训练的LSTM网络构成。其二是referring mode,一个利用在网页对KB的远程监督学习到的统计模型,用以处理QA pair不足时,引入原始Web-KB对齐用以强化query与question之间的对应。

             

实验

实验使用的问答数据集是WebQuestion(3778个问题用于训练,2032训练)以及WebQuestionSP(移去了WebQuestion中那些无法使用query表示的问题,3098训练,1639用于测试),问题包含单三元组的简单问题以及包含四个关系的问题还有聚合类型的问题。

评价指标为准确率,召回率以及F1:

             

与现有方法的实验结果横向对比如表1:

             

从性能上看并非最好的,但作者表示他们的主要贡献在于利用并证明了query结构信息在QA任务上的有效性。

 


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章