論文淺嘗 | Tree-to-sequence 學習知識問答

論文筆記整理:譚亦鳴,東南大學博士生,研究興趣:知識圖譜問答。


 

來源:Neurocomputing 372: 64-72 (2020)

鏈接:https://sciencedirect.xilesou.top/science/article/abs/pii/S0925231219312639

 

對於知識圖譜問答來說,主要任務是將自然語言問題映射到具有相同意義的結構化query上。但是目前基於深度學習的方法都僅關注了問題和關係鏈之間的語義對應,而忽視了query的結構信息。這篇文章提出將query視作tree,從而將實體和關係的順序信息也編碼進它們的向量表示中,從而更好的劃分給定問題的candidate query。

動機

目前的深度學習方法主要利用關係鏈匹配而非整個query匹配給定的問題,這種做法並不能有效利用query結構信息。

因此作者提出將candidate query的結構編碼進它的向量表示中,從而強化它與給定問題的匹配準確性。

方法

             

 

圖3是作者提出方法的整體框架,以問題“what character did natalie portman play in star wars ?”爲例,整體的框架流程描述如下:

1. 約束鏈接 作者提出了三種約束將問題中的成分關聯到知識圖譜上:(i)實體,使用目前性能最好的S-MART實體鏈接工具完成鏈接。(ii)類型,在知識圖譜中查詢所有類型的type,當問題中出現了某種類型的查詢詞時,完成類型鏈接。(iii)數字,分爲以下三種情況,單獨的數字,比較性詞彙+數字的組合,最值表示(最大最小最年輕等等),將對應類型的邏輯操作添加到query中。;

2. Candidate Query構建 本質上是給出幾種可能對應問題的帶有缺省值的子圖,首先根據實體鏈接確定子圖中的實體節點(圖中的葉子節點),然後使用中間節點將它們連起來,並選擇任一中間節點作爲答案節點,(需要時)補充上類型約束以及數字操作之後得到Candidate Query。(有點像排列組合,作者在論文中對每個步驟做了詳細說明,有需要的童鞋可以讀讀原文3.2節)

3. Tree-based Encoder 圖4描述了本文提出的基於樹的編碼過程,在這個圖中,與這兩個實體-關係pair共同組成?x的描述,在這個方向中,所有的實體類型數字操作和關係等等信息都流向answer節點(作者稱其爲前向,反之則爲後向),在這種形式下,詞與詞之間根據位置信息的不同,可以互相定義爲:preceding,sibling以及following。這些結構信息使得那些節點相同(相似)的Candidate query由於位置信息的差異被區分開來。爲了將這種結構加入到表示學習中,作者使用一個tree-based LSTM進行編碼(對相關公式證明感興趣的請見原文3.3節)。

             

4. Mixed-mode Decoder 在解碼過程的目的是選出最爲匹配question的candidate query,這裏作者引入了兩個解碼模式,用以處理兩種類型的query-question匹配:其一是generating mode,由一個使用QA pair訓練的LSTM網絡構成。其二是referring mode,一個利用在網頁對KB的遠程監督學習到的統計模型,用以處理QA pair不足時,引入原始Web-KB對齊用以強化query與question之間的對應。

             

實驗

實驗使用的問答數據集是WebQuestion(3778個問題用於訓練,2032訓練)以及WebQuestionSP(移去了WebQuestion中那些無法使用query表示的問題,3098訓練,1639用於測試),問題包含單三元組的簡單問題以及包含四個關係的問題還有聚合類型的問題。

評價指標爲準確率,召回率以及F1:

             

與現有方法的實驗結果橫向對比如表1:

             

從性能上看並非最好的,但作者表示他們的主要貢獻在於利用並證明了query結構信息在QA任務上的有效性。

 


 

OpenKG

開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文,進入 OpenKG 博客。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章