DAILY PAPER 002 -- Message Passing for Complex Question Answering over Knowledge Graphs

TITLE:

Message Passing for Complex Question Answering over Knowledge Graphs

AUTHOR(S):

Svitlana Vakulenko:阿姆斯特丹大学语言理解和信息搜索研究所(ILPS)数据科学博士后,研究方向为自然语言处理、对话系统、问答、对话搜索;
Javier David Fernandez Garcia;
Axel Polleres:维也纳经济与商业大学信息服务研究所所长,研究方向为知识管理、逻辑程序设计、语义网、知识图谱;
Maarten de Rijke:阿姆斯特丹大学,研究方向为信息抽取、人工智能;
Michael Cochez

SOURCE:

发表于CIKM 2019,https://arxiv.org/pdf/1908.06917
CIKM 全称为International Conference on Information and Knowledge Management,是国际计算机学会(ACM)主办的数据库、知识管理、信息检索领域的重要学术会议,1992年首次举办。
第28届CIKM2019年11月3日至7日在中国北京举行,本次会议收到 1676 篇提交论文(其中包括 1031 篇长论文和 471 篇短论文),经过同行评审,共有 202 篇长论文、107 篇短论文和 37 篇应用研究论文被接收,总接受率约为 21%。
CIKM 2020举办地点:Galway, Ireland;摘要截稿:2020-04-24;全文截稿:2020-05-01;开会时间:2020-10-19-23;CCF分类:B类。

CONTENT&COMMENT

许多KGQA系统只能回答简单问题(依赖一个三元组、单跳),为此提出 QAmp 模型,能够回答复杂问题(融合多个三元组、多跳),在 LC-QuAD 数据集取得SOTA结果。

  • INTRODUCTION,介绍逻辑为:海量数据需要强大的信息处理能力,其中问答是一种有效形式;当前多数问答系统依赖知识图谱;KGQA 系统分别解决简单问题或复杂问题;对于复杂问题问答极具挑战,本文提出 QAmp;最后简单介绍了 QAmp 的特点及结果。

  • RELATED WORK,包括面向简单问题或复杂问题的KGQA系统对比、一般的KGQA系统pipeline、相近工作及baseline、图神经网络。

  • QAmp细节介绍及实现方法,QAmp框架主要分两部分:问句分析和答案推理,其中问句分析识别问句中的实体、关系、类型实体(可参见下图左)以及问句类型(LC-QuAD数据集中问题类型分三种),然后将识别结果映射到知识图谱;答案推理即为逐跳搜索过程,每一步都进行message passing更新状态,循环直到最后一跳,结合问句类型确定正确答案。下面是详细介绍。

    问句分析分两步:

    1. 解析。如上图右所示,作者将问题定义为q=<tq,Seqq>q=<t_q, Seq_q>,相应的,解析过程为根据问题识别问句类型tqt_q以及n跳序列Seqq=(<Ei,Pi,Ci>)i=1hSeq_q=(<E^i,P^i,C^i>)^h_{i=1}。具体实现中,将问句类型视为一个多分类问题(本文数据集为三分类),以监督学习的方式(Bi-LSTM)进行训练;将n跳序列视为序列标注问题,同样用标注数据进行监督学习(CRF+Bi-LSTM)。
    2. 匹配。根据n跳序列中的E,P,CE, P, C匹配知识图谱中的实体与关系,得到相应的URI以及置信度(基于索引的方法和基于嵌入的方法),如下图。

    答案推理也分两步:

    1. 子图抽取。对于每一跳<E,P,C><E, P, C>,从知识图谱中抽取至少包含<E,P,C><E,P,C>中一个实体和一个关系的三元组,所有满足条件的三元组组成该跳子图。
    2. 信息传递。在子图中执行信息传递以更新候选答案实体(子图中未含于E,CE,C的实体)的置信度得分,即根据相邻实体URI和关系URI的置信度计算答案实体置信度。该算法是本文的核心,更新过程包括三步:关系更新、实体更新、置信度分数汇总。算法公式抽象难懂,可结合作者论文中的例子学习。

    每一跳以此执行上述两步,得到该跳的答案实体,将推理结果连同其置信度传递到下一跳,重复答案推理步骤,直到最后一跳,将其推理结果作为答案。

  • 实验分析和结论

⭐⭐⭐⭐ 这篇文章的一作是去年(2019年)博士毕业的小姐姐,在她的博士论文 Knowledge-based Conversational Search 介绍了这篇文章,另外她的博士论文原文也值得一读,有兴趣的可以 Google scholar 搜索阅读。我觉得文章值得借鉴的地方有:对问句模式的定义q=<t_q, Seq_q>;Message passing中的矩阵代数运算;不考虑知识图谱中关系的方向等。

以上仅代表本人见解,如有纰漏,敬请交流指正!!!

发布了15 篇原创文章 · 获赞 7 · 访问量 5037
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章