知識圖譜(二)——知識推理

知識推理是知識圖譜中很重要的一部分,主要用於推理暗含的知識(豐富知識圖譜),檢查知識庫的不一致(知識清洗)

知識推理分類

演繹推理

從一般到特殊的過程.從一般性的前提出發,通過推導,得到具體描述或個別結論(三段論),結論已經蘊含一般性知識中,只是通過演繹推理揭示出來,不能得到新知識.

歸納推理

從特殊到一般的推理過程.從一類事物的大量特殊事例出發,去推出該類事物的一般性結論(數學歸納法),推出的結論沒有包含在已有內容中,增加了新知識.

確定性推理&不確定推理

數值推理&符號推理

基於表示學習的推理

歸納推理

歸納邏輯程序設計(Inductive Logic Programming, ILP)使用一階謂詞邏輯來進行知識表示,通過修改和擴充邏輯表達式來完成對數據的歸納

這裏寫圖片描述

FOIL(First Order Inductive Learner)算法

利用序貫覆蓋實現規則學習

Algorithm
1. 從空規則開始,將目標謂詞作爲規則頭
2. 逐一將其他謂詞加入規則提進行考察,按預定標準評估規則的優劣並選取最優規則
3. 將該規則覆蓋的訓練樣例去除,以剩下的訓練樣例組成訓練集重複上述過程

評估準則

FOIL_GAIN=m^+(log2m^+m^++m^log2m+m++m)

其中,m^+/m^ 爲增加候選文字後新規則覆蓋的正反例數目,m+/m 表示原規則所覆蓋的曾凡麗數目.(類似於決策樹的信息增益)

上述的歸納邏輯程序設計(ILP)具有以下缺點:需要目標謂詞的正例和反例,同時暗含封閉世界假設(即所有未聲明是正例的樣本都是反例)

AMIE算法

不完備知識庫的關聯規則挖掘(Association Rule Mining under Incomplete Evidence,AMIE)支持從不完備知識庫中,挖掘閉式規則

AMIE依次學習預測每種關係的規則。對於每種關係,從規則體爲空的規則開始,通過三種操作擴展規則體部分,保留支持度大於閾值的候選(閉式)規則。

  • 添加懸掛邊:懸掛邊是指邊的一端是一個未出現過的變量,而另一端(變量或常量)是在規則中出現過的
  • 添加實例邊:實例邊與懸掛邊類似,邊的一端也是在規則中出現過的變量或常量,但另一端是未出現過的常量,也就是知識庫中的實體
  • 添加閉合邊 :閉合邊則是連接兩個已經存在於規則中的元素(變量或常量)的邊。

這裏寫圖片描述

評估準則
- 支持度:同時符合規則體和規則頭的實例數目

supp(Br(x,y)):=#(x,y):z1,...,zm:Br(x,y)

- 置信度:支持度除以僅符合規則體的實例數目
conf(Br(x,y)):=supp(Br(x,y))#(x,y):z1,...,zm:B

- PCA置信度
pcaconf(Br(x,y)):=supp(Br(x,y))#(x,y):z1,...,zm:Br(x,y)

路徑排序算法

路徑排序算法(Path Ranking Algorithm),PRA),以兩個實體間的路徑作爲特徵,來判斷它們之間可能存在的關係

Algorithm
1. 特徵抽取(生成並選擇路徑特徵集合)
方法:隨機遊走,廣度優先搜索,深度優先搜索
2. 特徵計算(計算每個訓練樣例的特徵值)
方法:隨機遊走概率,布爾值(出現/不出現),出現頻次/概率
3. 分類器訓練(根據訓練樣例,爲每個目標關係訓練一個分類器)
方法:單任務學習(爲每個關係單獨訓練二分類器);多任務學習(不同關係聯合學習)

演繹推理

原始方法:直接通過一階謂詞邏輯進行推理

馬爾科夫邏輯網

將概率圖模型與一階謂詞邏輯結合,核心思想是爲規則綁定權重(規則概率化),軟化一階謂詞邏輯的硬約束.

形式化定義

這裏寫圖片描述

馬爾科夫邏輯網的優勢:

  • 當規則及其權重已知時:推斷知識圖譜中任意未知事實成立的概率(馬爾可夫隨機場的推斷問題)證據變量爲知識圖譜中的已知事實,問題變量爲未知事實
  • 當規則已知但其權重未知時:自動學習每條規則的權重(馬爾可夫隨機場的參數學習)
  • 當規則及其權重均未知時:自動學習規則及其權重(馬爾可夫隨機場的結構學習),屬於上述歸納推理的範疇

概率軟邏輯

馬爾科夫邏輯網的進一步延伸,最大優點是允許原子事實(節點)的真值可以在連續的[0,1]區間取任意值(事實概率化),而不是像馬爾科夫邏輯網取{0,1}離散值.

數值推理

基於表示學習

《知識圖譜(一)——知識表示》,通過將符號表示映射到向量空間進行數值表示,能夠減少維數災難問題,同時能夠捕捉實體和關係之間的隱式關聯,重點是可以直接計算且計算速度快.(Trans E,Trans R,Trans H)

基於張量分解

通過張量分解,將知識圖譜表示成張量的形式,主要應用於鏈接預測(判斷兩個實體之間是否存在某種特定關係)實體分類(判斷實體所屬語義類別)實體解析(指代消解)

這裏寫圖片描述

TRESCAL模型(解決輸入張量高度稀疏所帶來的過擬合問題)

面臨挑戰

  • 大規模知識圖譜中知識推理的可擴展性
  • 大數據流處理中的推理效率(Flink、Spark 並行化流處理)
  • 時空推理
  • 自動或半自動的規則推理實現

資料來源:
[1]. 《第13章 知識圖譜與知識推理》王泉
[2]. 《第10章 知識推理》王泉
[3]. 《知識圖譜中推理技 術進展及應用》漆桂林

知識共享許可協議
本作品採用知識共享署名-非商業性使用-相同方式共享 3.0 中國大陸許可協議進行許可。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章