論文淺嘗-WSDM | Stepwise Reasoning for Multi-Relation QA

論文筆記整理:譚亦鳴,東南大學博士。


來源:WSDM ’20

鏈接:

https://dl.acm.org/doi/pdf/10.1145/3336191.3371812

 

1.介紹

知識圖譜問答旨在利用知識圖譜的結構化信息回答以自然語言提出的問題。當面對多關係問題時,現有基於embedding的方法所採用的構建主題實體子圖策略會導致較高的時間複雜,同時,由於數據標註的高成本,精確地給出回答複雜問題得每一步過程是不切實際的,並且只有最終的答案被標註的情況,是一種弱監督。

爲了解決上述問題,本文提出一種基於強化學習的神經網絡模型,命名爲Stepwise Reason Network,該模型將多關係問答視作一個順序決策問題,通過在知識圖譜上做有效路徑搜索來獲取問題的答案,並利用柱搜索顯著減少候選路徑的規模。同時,基於注意力機制以及神經網絡的策略網絡(policy network),能夠增強給定問題的不同局部對於三元組選擇的影響。

此外,爲了緩解弱監督導致的延遲以及獎勵稀疏問題,作者提出了一種potential-based的獎勵構成方案,用於幫助加快模型訓練的收斂速度。

三個benchmark上的實驗結果顯示,該模型展現出了目前最好的性能。

 

2.模型

首先,對本文使用的強化學習過程進行說明,該過程包括四個部分:

State,在每個時間節點tState St= (q, es, et, ht)S,其中es表示給定問題qtopic entity

et表示在時間t時,通過從es出發的path search訪問到的實體(visited entity),表示到時間t時,Agent做出的前置決策集。q以及es可以被看做全局信息

 

Action,在每個時間節點t上的候選action集都基於St得到,A(St)et在圖譜G中所有向外的邊組成,A(St) = {(r, e) | (et, r, e)G}

 

Transition,在Action的設定下,狀態的轉移概率是確定的,且轉移過程完全基於知識圖譜G,一旦agent選擇了action At = (r*,e*),狀態將會變爲St+1 = (q, es, e*, ht+1)

 

Rewardreward是由environment傳遞給agent的特殊信號,表明了agent的目的。一般而言,強化學習的每一步都會得到一個reward,而學習的目的是最大化reward的總數。但是在多關係問答的弱監督場景下,對於每個問題僅最終答案被標註,這使得agent到達正確答案時,只能收到一個積極的最終reward,接下來前置的所有步驟纔會被視作正確並收到積極獎勵(這種方式拖累了訓練的收斂速度),本文在這裏採用了一個potential function重構了rewards

 

爲了實現上述強化學習過程,本文使用了一個深度神經網絡將搜索決策參數化(policy network,如下圖)。

首先,問題被一個雙向GRU編碼爲向量,之後,這些向量在每個時間點通過對應的單層感知器進行變化,使得問題表示具有步驟感知。同時,歷史決策通過其他的GRU網絡被編碼,這種操作使得問題的不同部分在不同的時間節點被關注,通過注意力層,每個候選actionquestion進行相互作用,從而得到relation-aware的問題表示;最終基於語義打分(融合了relationembeddingsrelation-awarequestion以及decision history)給出候選action的概率分佈。

 

爲了處理弱監督造成的影響,作者討論了兩種方案:

其一是提供額外的獎勵,以快速的引導模型訓練收斂,但是這種做法存在的一個主要風險就是無法保證額外獎勵的設計目標與agent的原始目標完全一致(存在造成獲得次優方案的風險)

其二則是使用potential-based reward shaping,參照論文《Policy Invariance Under Reward Transformations: Theory and Application toReward Shaping》的做法,作者基於potential function構建了一個reward shaping function

大體的思路可以描述如下:

該函數的目標是衡量前置決策對於給定問題中的語義信息的覆蓋程度,在這裏,作者假設“一個正確的決策應該包含一個KG relation,這個relation應該能夠對應到給定問題的一部分語義信息上”,potential的計算過程如公式7

t>1時,如果選擇了正確的路徑(action),那麼所得的前置問題語義表達與前置決策對應的relation embedding應該具備高相關性。

以此爲基礎,可以給出potential-based reward shaping function

Reward函數則改寫爲

3.實驗

本文實驗使用的benchmark信息如下表:

Baseline包括:IRN, VRN, MemNN, MINERVA

實驗結果

 

 


 

OpenKG

開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文,進入 OpenKG 博客。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章