論文淺嘗 - ICLR2020 | 通過神經邏輯歸納學習有效地解釋

論文筆記整理:朱渝珊,浙江大學直博生。研究方向:知識圖譜,快速表示學習等。


論文鏈接:https://arxiv.org/pdf/1910.02481.pdf

本文是ICLR 2020的一篇關於知識圖譜中關於複雜(樹狀、組合)規則可微學習的文章。提出了神經邏輯歸納學習(NLIL),一種可微分的ILP方法,擴展了針對一般ILP問題的多跳推理框架。NLIL將搜索空間分解爲一個層次結構中的3個子空間,每個子空間都可以通過注意力高效地進行搜索。作者證明通過種方式模型可搜索規則比使用NeuralLP等方式搜索的規則長10倍,且擁有更快的速度

1. 相關背景

1.1 Inductive Logic Programming (ILP)

一階邏輯系統3個組件:實體,謂詞和公式。以下圖爲例:

實體是對象x∈X。圖像某區域是實體x,所有可能區域集合是X。

謂詞是將實體映射到0或1的函數,Person:x →{0,1},x∈X。謂詞可有多個輸入Inside接受2輸入的謂詞參數的數量稱爲Arity。原子是應用於邏輯變量的謂詞符號,如person(X)和Inside(X,X')。

一階邏輯(FOL)公式是使用邏輯運算{∧,∨,¬}的原子的組合。給定一組謂詞P ={P1...PK},謂詞Pk的解釋定義爲一階邏輯蘊涵

   Pk(X,X')是蘊涵的頭,如它是一元謂詞,則爲Pk(X)。A爲規則主體

代表着這樣的知識:“如果物體在車內,身上有衣服,那就是人”。

1.2 多跳推理:

ILP問題與KG多跳推理任務相關。此處,事實存儲在謂詞Pk的二進制矩陣Mk中,Mk(i,j)=1表明三元組在KG中。

給定查詢q=

M(t)是在第 t 跳中用的謂詞的鄰接矩陣。v(t)是路徑特徵向量,v(t)中第j個元素計算從x到xj的唯一路徑的數量。經過T步推理後,查詢的分數計算爲

對於每個q,目標是(i)找到一個合適的T,(ii)爲每個t∈[1,2,...,T],找到一個合適的M(t),使得score最大。這兩個離散的選擇可以放寬,即

此爲軟路徑選擇函數,參數爲

(i)路徑注意向量,選擇長度在1到T之間回答查詢的最佳路徑。

(ii)謂詞注意向量,在第t步選擇M(t)。

這兩個注意向量是通過下述模型生成的

參數w可學習。以前的一些方法,T(x; w)是一個隨機遊動採樣器,它會生成one-hot向量來模擬從x開始的圖形上的隨機遊動。在NeuralLP中,T(x; w)是一個RNN控制器,目標定義爲

在多跳推理中學習關係路徑可以解釋爲使用鏈狀FOL(一階邏輯)規則解決ILP問題

與基於模板的ILP方法(如∂ILP)比,此類方法在規則探索和評估中非常有效。但是,存在兩個問題

(P1)規則的表達性不足,僅能表達鏈狀規則,例如等式(2)不是鏈狀的就不能表示。

(P2)注意生成器T(x; w)取決於特定查詢q的實體x,這意味着針對目標P*生成的解釋可能因查詢而異,很難學習KG中全局一致的FOL規則。

2. 算法模型

推理過程中所有中間實體都用首尾實體表示

如上將公式(1)轉換爲(7)所示,實現方法就是通過轉換的函數(操作符):將每個謂詞k都視爲一個操作符ϕk,如下所示,U是一元謂詞,B是二元謂詞

則規則(2)可以表述成規則(8),這樣首尾實體在具體實現時用隨機初始化的向量表示,擺脫了數據依賴

擴展到樹狀規則

提出Primitive Statements(基本語句)的概念,公式(8)可視爲兩個基本語句組成,

每個基本語句都是從輸入空間映射到一個置信度得分標量

公式(3)可表示爲

如下圖所示,樹狀規則可表示爲

規則之間的組合

把基本語句用{∧,∨,¬}進行邏輯組合,如公式(8)就是兩個基本語句的邏輯“and”操作。邏輯 “not” 及邏輯 “and” 運算如下表示

第l級的公式集以及最後的得分就可如下方式推得

整個流程可以如下圖所示

其中都是注意力,W/sum 是加權和,Matmul 指矩陣乘積,Neg 是邏輯“not”,XEnt 是交叉熵。

具體實現上:Hierarchical Transformer Networks for Rule Generation,引入“虛擬”自變量X和X’,學習的參數有邏輯謂詞向量 和相應的注意力參數,公式爲

其中h*是P*的嵌入,因此注意力僅相對於P*有所不同。

3. 實驗

Baseline

•NeuralLP  (Yang , 2017)

•∂ILP  (Evans , 2018)

•TransE  (Bordes , 2013)

•RotatE  (Sun , 2019)

Dataset

•ES(Even-and-Successor)  (Evans , 2018) :兩個一元謂詞Even,Zero和一個二元謂詞Successor。目標是學習一組整數上的FOL規則。本文對從0開始的10、50和1K個連續整數評估。

•FB15K-237

•WN18

•VG(Visual Genome),視覺領域數據,以物體檢測任務爲基礎,將圖片上的物體之間的關係抽象成小的知識圖譜

FB15k-237和WN18數據上鏈接預測

ES數據上與不同算法對比,(a)時間 (mins)(b)規則長度

VG數據集,不同training-set大小

雖然基於豐富標籤數據的監督學習方法達到了比較好的效果,但是NLIL僅僅利用稀疏的(0/1)標籤就能達到匹敵的效果,甚至顯著優於一種監督模型baseline的效果,進一步體現出了模型的有效性。在少樣本學習(訓練樣本僅0.01%)也體現出更好性能

4.總結

本文提出了神經邏輯歸納學習,這是一個可區分的ILP框架,可以從數據中學習解釋性規則。

證明了NLIL可以擴展到非常大的數據集,同時能夠搜索複雜的表達規則。更重要的是,本文還證明了可擴展的ILP方法在解釋監督模型的決策方面是有效的,這爲檢查機器學習系統的決策過程提供了另一種視角。

 


 

OpenKG

開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文,進入 OpenKG 博客。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章