ACL 2018 和 2018 AAAI 接受关于知识图谱的论文简述

1.Variational Reasoning for QuestionAnswering with Knowledge Grap

 摘要: 

       QA存在的问题:问题存在噪音;需要经过多轮推理才能找到答案。

       提出基于端到端的深度学习模型,能够有效的解决上面的两个问题,在一系列数据集上取得了最好的成绩

       核方法的缺点:将整个知识库融入到一张大表中,这样缺乏逻辑信息,不能用于多轮推理。适用於单轮推理。

       例如 谁和托尼一起写了这本书?  托尼 作者 作者

              传统的补救措施是使用关系补全,为两个不相邻的实体创建一个新的关系。但是这样的会异常复杂,不符合自然的思考方式,同时在存储和计算方面会遇到很多问题。

              第二个面临的挑战是:如何定位到主题实体。很多是简单的字符串匹配,这往往是不准确的。引起这个问题的原因也有噪音(表达,输入错误等)的存在,同时存在别名的问题,例如特朗普和川普。目前有很多技术来提高实体识别的准确性。尤其是语音识别中的错误,人名和地名错误的叠加,导致整个QA系统的性能下降。

       大多数训练数据只是简单的提供了问题和答案,并没有详细的关系的描述,逻辑推理过程。这就必须同时找出实体和关系,以及不知道的推理步骤。

       我们提出了VRN模型来改善这些问题

1.    基于概率的端到端的模型,可以同时处理实体识别不准确和多轮推理的问题

2.    我们提出了有一个类似于传播算法得深度学习模型,在概率模型上进行逻辑推理

3.    我们将强化算法,减少变量,进行系统的端到端训练

4.    我们在 MetaQA 取得了非常好的效果

我们立足于实际,不来虚的,可以很好处理两种源的问题(文本和口语),以及目前模型不能解决的问题

 

相关工作

       情感解析

       匹配问题通过一定的表示方法或者逻辑推理,这些推理需要专业领域的语法、规则和比较完美的注释。当然他肯定不能处理噪音。

       核方法

       注意力机制,在单轮推理中效果比较好,不能应用于多轮

       表示学习(向量填充)

              句子或者细粒度的问题,但是不适合于大规模的知识图谱(这好像不是表示学习的缺点…)

       多轮推理

       有些为了完成多轮推理,通过路径采样和动态处理的方式遍历

 

结构总览

       包含两个概率模型

       实体识别模型

              在实际环境中,不能使用常规的字符串匹配和实体标注,需要训练一个逻辑推理识别器。利用文本的上下文,例如乔丹这个牌子的衣服怎么样,这里乔丹是指的衣服品牌,而不是球星乔丹。

       逻辑推理模型

Mem2Seq:Effectively Incorporating Knowledge Bases into End-to-End Task-Oriented DialogSystems

 

端到端的任务型对话系统主要面临的挑战是整个知识

Mem2Seq 是第一个结合了多轮注意力机制和指针网络的生成网络模型。我们的优点更快、更准。

最近端到端的学习方法取得了不错得成绩,可以直接冲原始QA对中,匹配和提取到答案,不需要人工标注。后来基于注意力的复制机制,甚至可以处理没有在对话历史中出现的token,始终能产生正确和相关的实体。

但是这些方法存在两个问题。他们努力将外部的KB知识整合进入RNN网络的隐藏层,但是RNN对于长序列并不稳定。处理长序列是非常花时间的一件事情,特别是结合了注意力的时候。

       end-to-end memory networks(MemNNs)。这时候端到端的优势就体现出来了,循环的注意力机制可应用于大规模的数据上。可以储存大规模的KB信息和编码长度序列。multi-hop mechanism of MemNN 在推理型任务中取得了非常好的表现。但是MenNN简单的从预先设置好的候选人中选取答案,而不是一个词一个词的生成答案。同时memory queries需要明确的实际而不是学习。

       针对这些问题,我们提出了 Mem2Seq 模型,能过运用多跳注意力机制直接从对话历史或者KB中获取知识。

       创意,不同点

       Mem2Seq 第一提出了,将多轮注意力和指针网络相结合的模型,这样可以高效率的整合KB信息。Mem2Seq会学习如何使用动态查询去获取信息。最后,我们很快。

 

模型描述

       Mem2Seq 由两部分组成

       1.MemNN

       2.当然是pointer了

TorusE: Knowledge Graph Embedding on a LieGroup

 

TransE简洁和高效,但是有很多问题,比如

 

规则化是十分重要的,因为填充会产生偏差,因为错误的例子。

 

Torus是lie group的一个组成部分,可以用来避免规则性问题

 

虽说知识图谱存在数以亿计的节点或者事实,但是依旧是不完整的,会缺失很多事实。这个用来补全知识图谱。

 

TransE在HITS@1上表现很糟糕,但是在HITS@10上因为双线性模型的原因表现的很具有竞争力。TransE必须要求填充的实体在一定的范围内,这影响了关系预测的精度。

 

在Torus中,我们不要求任何规则,仅仅是采取了部分TransE的准则。

 

相关工作      基础翻译模型

       双线性模型

       基于神经网络的模型

下面就是关于李群的 一些东西了,表示看不懂。

       李群(Liegroup)是具有群结构的实流形或者复流形,并且群中的加法运算和逆元运算是栁形中的解析映射。李群在数学分析、物理和几何中都有非常重要的作用。《人工智能与模式识别》期刊中的一篇论文中。

A Torus


Knowledge GraphEmbedding with Iterative Guidance from Soft Rules

知识图谱在低维向量空间中的表示学习是当前研究的热点。最近,将分布式知识表示与传统符号逻辑相结合引起了越来越多的关注。但是,以往的大多数尝试采用一次性注入逻辑规则的方式,忽略了分布式知识表示学习和逻辑推理之间的交互性。此外,以往的方法只专注于处理硬规则,即那些总是成立、不能被违反的规则。这类规则通常需要耗费大量的人力来编写或验证。

 

本文作者提出了一种新的知识图谱分布式表示学习方法——规则引导嵌入(rule-guidedembedding,简记为 RUGE),借助软规则的迭代引导完成知识图谱表示学习。所谓软规则,就是那些不总是成立、带置信度的规则。这类规则可以经由算法从知识图谱中自动抽取。

具体来说,RUGE同时利用标注三元组、未标注三元组、自动抽取出的软规则这三种资源以迭代的方式进行知识图谱表示学习。每一轮迭代在软标签预测和表示修正这两个步骤间交替进行。前者利用当前学到的表示和软规则为未标注三元组预测软标签;后者进一步利用标注三元组(硬标签)和未标注三元组(软标签)对当前表示进行修正。通过这个迭代过程,RUGE可以成功建模分布式知识表示学习和逻辑推理二者间的交互性,逻辑规则中蕴含的丰富知识也能被更好地传递到所学习的分布式表示中。





發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章