论文浅尝 | Tree-to-sequence 学习知识问答

论文笔记整理：谭亦鸣，东南大学博士生，研究兴趣：知识图谱问答。

来源：Neurocomputing 372: 64-72 (2020)

链接：https://sciencedirect.xilesou.top/science/article/abs/pii/S0925231219312639

对于知识图谱问答来说，主要任务是将自然语言问题映射到具有相同意义的结构化query上。但是目前基于深度学习的方法都仅关注了问题和关系链之间的语义对应，而忽视了query的结构信息。这篇文章提出将query视作tree，从而将实体和关系的顺序信息也编码进它们的向量表示中，从而更好的划分给定问题的candidate query。

动机

目前的深度学习方法主要利用关系链匹配而非整个query匹配给定的问题，这种做法并不能有效利用query结构信息。

因此作者提出将candidate query的结构编码进它的向量表示中，从而强化它与给定问题的匹配准确性。

方法

图3是作者提出方法的整体框架，以问题“what character did natalie portman play in star wars ?”为例，整体的框架流程描述如下：

1. 约束链接 作者提出了三种约束将问题中的成分关联到知识图谱上：(i)实体，使用目前性能最好的S-MART实体链接工具完成链接。(ii)类型，在知识图谱中查询所有类型的type，当问题中出现了某种类型的查询词时，完成类型链接。(iii)数字，分为以下三种情况，单独的数字，比较性词汇+数字的组合，最值表示（最大最小最年轻等等），将对应类型的逻辑操作添加到query中。；

2. Candidate Query构建 本质上是给出几种可能对应问题的带有缺省值的子图，首先根据实体链接确定子图中的实体节点（图中的叶子节点），然后使用中间节点将它们连起来，并选择任一中间节点作为答案节点，（需要时）补充上类型约束以及数字操作之后得到Candidate Query。（有点像排列组合，作者在论文中对每个步骤做了详细说明，有需要的童鞋可以读读原文3.2节）

3. Tree-based Encoder 图4描述了本文提出的基于树的编码过程，在这个图中，与这两个实体-关系pair共同组成?x的描述，在这个方向中，所有的实体类型数字操作和关系等等信息都流向answer节点（作者称其为前向，反之则为后向），在这种形式下，词与词之间根据位置信息的不同，可以互相定义为：preceding，sibling以及following。这些结构信息使得那些节点相同（相似）的Candidate query由于位置信息的差异被区分开来。为了将这种结构加入到表示学习中，作者使用一个tree-based LSTM进行编码（对相关公式证明感兴趣的请见原文3.3节）。

4. Mixed-mode Decoder 在解码过程的目的是选出最为匹配question的candidate query，这里作者引入了两个解码模式，用以处理两种类型的query-question匹配：其一是generating mode，由一个使用QA pair训练的LSTM网络构成。其二是referring mode，一个利用在网页对KB的远程监督学习到的统计模型，用以处理QA pair不足时，引入原始Web-KB对齐用以强化query与question之间的对应。

实验

实验使用的问答数据集是WebQuestion（3778个问题用于训练，2032训练）以及WebQuestionSP（移去了WebQuestion中那些无法使用query表示的问题，3098训练，1639用于测试），问题包含单三元组的简单问题以及包含四个关系的问题还有聚合类型的问题。

评价指标为准确率，召回率以及F1：

与现有方法的实验结果横向对比如表1：

从性能上看并非最好的，但作者表示他们的主要贡献在于利用并证明了query结构信息在QA任务上的有效性。

OpenKG

开放知识图谱（简称 OpenKG）旨在促进中文知识图谱数据的开放与互联，促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文，进入 OpenKG 博客。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

论文浅尝 | Tree-to-sequence 学习知识问答

「Pygors跨平台GUI」1：Pygors跨平台GUI应用研究

[转帖]

python列出centos7内存使用前50的进程信息

「Pygors跨平台GUI」2：安装MinGW-w64、MSYS2还是WSL2

一键自动化博客发布工具,用过的人都说好(掘金篇)

通义千问 2.5 “客串” ChatGPT4，你分的清吗？

Garnet：微软官方基于.NET开源的高性能分布式缓存存储数据库

Flink执行图

Java响应式编程

评估统计算法在银行伪造钞票检测中的价值

論文淺嘗 - SIAM ICDM 2020 | 基於圖時空網絡的知識引導的診斷預測

論文淺嘗 | Iterative Cross-Lingual Entity Alignment Based on TransC

論文淺嘗 - AAAI2020 | 基於知識圖譜進行對話目標規劃的開放域對話生成技術

論文淺嘗 - ACL2020 | 用於鏈接預測的開放知識圖譜嵌入

陳華鈞等 | OpenKG區塊鏈：構建可信開放的聯邦知識圖譜平臺

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結