DAILY PAPER 002 -- Message Passing for Complex Question Answering over Knowledge Graphs

TITLE:
Message Passing for Complex Question Answering over Knowledge Graphs
AUTHOR(S):
Svitlana Vakulenko：阿姆斯特丹大學語言理解和信息搜索研究所（ILPS）數據科學博士後，研究方向爲自然語言處理、對話系統、問答、對話搜索； Javier David Fernandez Garcia； Axel Polleres：維也納經濟與商業大學信息服務研究所所長，研究方向爲知識管理、邏輯程序設計、語義網、知識圖譜； Maarten de Rijke：阿姆斯特丹大學，研究方向爲信息抽取、人工智能； Michael Cochez
SOURCE:
發表於CIKM 2019，https://arxiv.org/pdf/1908.06917 CIKM 全稱爲International Conference on Information and Knowledge Management，是國際計算機學會（ACM）主辦的數據庫、知識管理、信息檢索領域的重要學術會議，1992年首次舉辦。第28屆CIKM2019年11月3日至7日在中國北京舉行，本次會議收到 1676 篇提交論文（其中包括 1031 篇長論文和 471 篇短論文），經過同行評審，共有 202 篇長論文、107 篇短論文和 37 篇應用研究論文被接收，總接受率約爲 21%。 CIKM 2020舉辦地點：Galway, Ireland；摘要截稿：2020-04-24；全文截稿：2020-05-01；開會時間：2020-10-19-23；CCF分類：B類。

CONTENT&COMMENT

許多KGQA系統只能回答簡單問題（依賴一個三元組、單跳），爲此提出 QAmp 模型，能夠回答複雜問題（融合多個三元組、多跳），在 LC-QuAD 數據集取得SOTA結果。

INTRODUCTION，介紹邏輯爲：海量數據需要強大的信息處理能力，其中問答是一種有效形式；當前多數問答系統依賴知識圖譜；KGQA 系統分別解決簡單問題或複雜問題；對於複雜問題問答極具挑戰，本文提出 QAmp；最後簡單介紹了 QAmp 的特點及結果。
RELATED WORK，包括面向簡單問題或複雜問題的KGQA系統對比、一般的KGQA系統pipeline、相近工作及baseline、圖神經網絡。
QAmp細節介紹及實現方法，QAmp框架主要分兩部分：問句分析和答案推理，其中問句分析識別問句中的實體、關係、類型實體（可參見下圖左）以及問句類型（LC-QuAD數據集中問題類型分三種），然後將識別結果映射到知識圖譜；答案推理即爲逐跳搜索過程，每一步都進行message passing更新狀態，循環直到最後一跳，結合問句類型確定正確答案。下面是詳細介紹。

問句分析分兩步：
1. 解析。如上圖右所示，作者將問題定義爲 $q=<t_q, Seq_q>$ ，相應的，解析過程爲根據問題識別問句類型 $t_q$ 以及n跳序列 $Seq_q=(<E^i,P^i,C^i>)^h_{i=1}$ 。具體實現中，將問句類型視爲一個多分類問題（本文數據集爲三分類），以監督學習的方式（Bi-LSTM）進行訓練；將n跳序列視爲序列標註問題，同樣用標註數據進行監督學習（CRF+Bi-LSTM）。
2. 匹配。根據n跳序列中的 $E, P, C$ 匹配知識圖譜中的實體與關係，得到相應的URI以及置信度（基於索引的方法和基於嵌入的方法），如下圖。
答案推理也分兩步：
1. 子圖抽取。對於每一跳 $<E, P, C>$ ，從知識圖譜中抽取至少包含 $<E,P,C>$ 中一個實體和一個關係的三元組，所有滿足條件的三元組組成該跳子圖。
2. 信息傳遞。在子圖中執行信息傳遞以更新候選答案實體（子圖中未含於 $E,C$ 的實體）的置信度得分，即根據相鄰實體URI和關係URI的置信度計算答案實體置信度。該算法是本文的核心，更新過程包括三步：關係更新、實體更新、置信度分數彙總。算法公式抽象難懂，可結合作者論文中的例子學習。
每一跳以此執行上述兩步，得到該跳的答案實體，將推理結果連同其置信度傳遞到下一跳，重複答案推理步驟，直到最後一跳，將其推理結果作爲答案。

實驗分析和結論。

⭐⭐⭐⭐ 這篇文章的一作是去年（2019年）博士畢業的小姐姐，在她的博士論文 Knowledge-based Conversational Search 介紹了這篇文章，另外她的博士論文原文也值得一讀，有興趣的可以 Google scholar 搜索閱讀。我覺得文章值得借鑑的地方有：對問句模式的定義q=<t_q, Seq_q>；Message passing中的矩陣代數運算；不考慮知識圖譜中關係的方向等。

以上僅代表本人見解，如有紕漏，敬請交流指正！！!