論文淺嘗 | ADRL:一個基於注意力機制的知識圖譜深度強化學習框架

論文筆記整理:譚亦鳴,東南大學博士。


來源:Knowledge-Based Systems 197 (2020) 105910

鏈接:https://www.sciencedirect.com/science/article/abs/pii/S0957417419306839

概要與動機

知識圖譜推理是圖譜構建的關鍵技術之一,它在包括垂直搜索和智能問答等應用場景中有着重要作用。推理的目標是根據已知實體和關係推斷所需的未知實體。現有的推理方法主要基於embedding實現(即對所有的實體和關係做整體embedding,然後利用向量相似度推斷實體間的關係或者給定三元組是否爲真)。但是在真實的應用場景中,我們需要一個清晰且可解釋的實體作爲輸出。本文提出一種基於注意力機制的知識圖譜深度強化學習框架ADRL,用於學習多跳關係路徑,通過深度學習及強化學習結構化感知,從而提高傳統方法效率,泛化能力及可解釋性。

貢獻

本文的主要貢獻包括:

1.提出了一個面向知識圖譜推理的基於深度學習的新框架,相較傳統方法,該框架科研有效提升性能及可解釋性

2.設計了一個關係模型,作爲推理框架的通用插件,其中的self-attention能夠循環推斷實體之間的關係以引導一個model-free的策略,這一做法相對前人工作更有助於agent推斷關係路徑

3.利用actor-critic方法有效解決了獎勵係數問題,其中獎勵取決於價值函數,並將同策略一起被訓練和優化

模型與算法

本文提出框架的整個過程如下圖所示,其過程大體可以描述爲:

1.首先將知識圖譜的agent環境輸入卷積神經網絡(CNN);

2.利用深度CNN將其映射到低維向量,且可以在每個級別可以傳遞信息

3.接着使用LSTM(使用校正的線路單ReLU激活函數),用於儲存生成的歷史軌跡,構成策略與價值函數

4.上述步驟的輸出被輸入進一個關係模型,模型中包含一個self-attention模塊用於推斷和分享實體向量及關係向量的權值

5.利用一個特徵感知的最大池化層對關係模型的輸出進行聚合,最後傳遞給一個MLP接着是ReLU激活函數用於產生一個策略以及一個基準標量價值函數,可以被用作一個agent獎勵

在優化算法方面,作者考慮到基於梯度下降的方法效率較低,而蒙特卡洛抽樣依賴於大量積極獎勵(尤其是學習初始階段),爲了解決這些問題,作者選擇Actor-Critic,一種結合策略梯度和順序差異學習的強化學習方法。Actor-Critic算法可以執行單步更新參數,使用值函數作爲基礎函數來減少策略梯度的差異,而無需等待回合結束,並且在訓練過程中可以同時學習策略和價值函數,算法流程如下圖:

實驗與結果

實驗數據:

本文實驗所使用的數據是目前較爲流行的KG推理數據集(WN18RR,FB15K-237,NELL-995),其統計信息如表1.

表2是linkprediction實驗結果,本文方法展現出了更好的性能,作者認爲是共享的實體及關係權值帶來了更佳的性能表現。

表3是factprediction的結果,作者認爲本文方法的優勢在於“the reason is that our model is more complex than the previous model, introducing more state-of-the-art methods”

 


 

OpenKG

開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文,進入 OpenKG 博客。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章