TITLE:
Message Passing for Complex Question Answering over Knowledge Graphs AUTHOR(S):
Svitlana Vakulenko:阿姆斯特丹大學語言理解和信息搜索研究所(ILPS)數據科學博士後,研究方向爲自然語言處理、對話系統、問答、對話搜索; Javier David Fernandez Garcia; Axel Polleres:維也納經濟與商業大學信息服務研究所所長,研究方向爲知識管理、邏輯程序設計、語義網、知識圖譜; Maarten de Rijke:阿姆斯特丹大學,研究方向爲信息抽取、人工智能; Michael Cochez SOURCE:
發表於CIKM 2019,https://arxiv.org/pdf/1908.06917 CIKM 全稱爲International Conference on Information and Knowledge Management,是國際計算機學會(ACM)主辦的數據庫、知識管理、信息檢索領域的重要學術會議,1992年首次舉辦。 第28屆CIKM2019年11月3日至7日在中國北京舉行,本次會議收到 1676 篇提交論文(其中包括 1031 篇長論文和 471 篇短論文),經過同行評審,共有 202 篇長論文、107 篇短論文和 37 篇應用研究論文被接收,總接受率約爲 21%。 CIKM 2020舉辦地點:Galway, Ireland;摘要截稿:2020-04-24;全文截稿:2020-05-01;開會時間:2020-10-19-23;CCF分類:B類。
CONTENT&COMMENT
許多KGQA系統只能回答簡單問題(依賴一個三元組、單跳),爲此提出 QAmp 模型,能夠回答複雜問題(融合多個三元組、多跳),在 LC-QuAD 數據集取得SOTA結果。
-
INTRODUCTION,介紹邏輯爲:海量數據需要強大的信息處理能力,其中問答是一種有效形式;當前多數問答系統依賴知識圖譜;KGQA 系統分別解決簡單問題或複雜問題;對於複雜問題問答極具挑戰,本文提出 QAmp;最後簡單介紹了 QAmp 的特點及結果。
-
RELATED WORK,包括面向簡單問題或複雜問題的KGQA系統對比、一般的KGQA系統pipeline、相近工作及baseline、圖神經網絡。
-
QAmp細節介紹及實現方法,QAmp框架主要分兩部分:問句分析和答案推理,其中問句分析識別問句中的實體、關係、類型實體(可參見下圖左)以及問句類型(LC-QuAD數據集中問題類型分三種),然後將識別結果映射到知識圖譜;答案推理即爲逐跳搜索過程,每一步都進行message passing更新狀態,循環直到最後一跳,結合問句類型確定正確答案。下面是詳細介紹。
問句分析分兩步:
- 解析。如上圖右所示,作者將問題定義爲,相應的,解析過程爲根據問題識別問句類型以及n跳序列。具體實現中,將問句類型視爲一個多分類問題(本文數據集爲三分類),以監督學習的方式(Bi-LSTM)進行訓練;將n跳序列視爲序列標註問題,同樣用標註數據進行監督學習(CRF+Bi-LSTM)。
- 匹配。根據n跳序列中的匹配知識圖譜中的實體與關係,得到相應的URI以及置信度(基於索引的方法和基於嵌入的方法),如下圖。
答案推理也分兩步:
- 子圖抽取。對於每一跳,從知識圖譜中抽取至少包含中一個實體和一個關係的三元組,所有滿足條件的三元組組成該跳子圖。
- 信息傳遞。在子圖中執行信息傳遞以更新候選答案實體(子圖中未含於的實體)的置信度得分,即根據相鄰實體URI和關係URI的置信度計算答案實體置信度。該算法是本文的核心,更新過程包括三步:關係更新、實體更新、置信度分數彙總。算法公式抽象難懂,可結合作者論文中的例子學習。
每一跳以此執行上述兩步,得到該跳的答案實體,將推理結果連同其置信度傳遞到下一跳,重複答案推理步驟,直到最後一跳,將其推理結果作爲答案。
- 實驗分析和結論。
⭐⭐⭐⭐ 這篇文章的一作是去年(2019年)博士畢業的小姐姐,在她的博士論文 Knowledge-based Conversational Search 介紹了這篇文章,另外她的博士論文原文也值得一讀,有興趣的可以 Google scholar 搜索閱讀。我覺得文章值得借鑑的地方有:對問句模式的定義q=<t_q, Seq_q>;Message passing中的矩陣代數運算;不考慮知識圖譜中關係的方向等。
以上僅代表本人見解,如有紕漏,敬請交流指正!!!