論文淺嘗 | 知識圖譜的不確定性衡量

論文筆記整理:譚亦鳴,東南大學博士。


來源:Knowledge and Information Systems volume 62, pages611–637(2020)

鏈接:https://link.springer.com/article/10.1007/s10115-019-01363-0

概要

本文的核心工作是利用知識結構來衡量知識庫的不確定性。文章的內容涵蓋了以下幾個部分:

1.首先隊知識庫的知識結構進行介紹;

2.以包含度特徵爲基礎,提出知識結構與知識庫之間的依賴以及獨立性;

3.研究給定知識庫的不確定性度量(並證明該度量方法是以知識庫的知識結構爲基礎);

4.最後,通過實驗驗證了本文方法的有效性,並從統計學的離散型和相關性兩個方面做有效性分析。

動機與思路

作者用自問自答的形式對知識庫不確定進行論述:

爲何研究知識庫不確定性的度量?因爲知識庫本身具有不確定性。

爲何研究知識庫的知識結構?因爲知識結構有助於從知識庫中發現知識。

爲何使用知識結構衡量知識庫的不確定性?因爲很難對比給定知識庫的不確定性值(原文是“This is because it is hard to compare the size of measure values of uncertainty for a given knowledge base.”,這句話沒看明白,我的理解是:由於不同知識庫的實體/關係規模差異較大,直接對知識庫做不確定性衡量得到的量化結果不適合(不能夠)反映出不同知識庫之間的不確定性差異,因此要使用一個高層特徵(知識結構),來代表並對不確定性的量化衡量做一個類似歸一化的效果。),而且如果獲取到兩個知識結構之間的依賴關係,可以利用這個關係參與比較知識庫之間的不確定性差異。

概念與定義

首先,作者使用矩陣M對於二元關係R進行了如下描述:

我們可以將矩陣中的x理解爲知識庫中的實體,R表明實體之間的關係,當R(xi, xj) =1時,表明x1,x2之間存在關係R.

可以看到,R在矩陣中可能構成三種關係場景(令實體集合爲Ux, y∈U):

1.xRx Reflexive

2.xRy且yRxSymmetric

3.xRy,yRz,且xRz(Transitive

R滿足上述三種情況時,被稱爲“equivalence relation on U”,R(U)則代表所有equivalence relation on U”的集合的族(我理解爲子集的集合)

對於一個equivalence relation R,通過以下公式,可以抽取實體集U在R上對應的類別子集:

因此,利用equivalence relation R可以對U進行類別劃分,即:

故作者在這裏提出定義:

2.1R是U的一個equivalence relation,那麼(U, R)被視作一個Pawlak近似空間(這裏需要對粗糙集的概念做一個初步瞭解),在此基礎上,X∈2U(U的所有子集的族)的近似上下界可以通過以下公式定義:

2.2 當R∈2R*(U)時(R*(U)指U上所有的equivalence relation的集合),(U, R)可以表示一個知識庫,舉個栗子來看:

可以看到這個知識庫裏有6個實體,4種關係,對應得到了四組矩陣。

因此對應可以得到知識庫對應的近似空間的上下界:

知識結構定義:

對於一個知識庫(U, R),對於r∈R,可以通過以下公式描述r的知識結構:

因此整個知識庫的知識結構爲:

對於兩個知識庫(U, P)與(U, Q),當:

知識結構之間的依賴性與獨立性:

(參數在前文均已介紹過,這裏不再贅述)

Inclusion degree(是一種衡量inclusion relationship質量的標準),以下定義給出了兩個集合向量之間的Inclusion degree(3.9取值範圍及定義,3.10計算方式):

作者描述了一個計算inclusiondegree的例子:

1.首先給出兩個知識庫的知識結構:

2.計算inclusiondegree的過程爲:

模型與算法

知識庫粒度檢測:

(首先給出粒度定義)

 

粒度的量化值如以下公式得到(作者在原文中對獲取過程做了證明):

並提出定理:

作者認爲,知識粒化符合粒運算特徵,並且從不同的層次重新定義了知識和信息。粒度測量值隨類別增加而遞減。缺陷在於無法區分粒度相似但結構不同的知識庫。

知識庫的熵檢測:

(也是先給出了定義及知識熵的計算方式,可以看到這裏的熵是完全基於知識結構的(定理4.8))

並且知識結構的關係與熵的關聯性如下(原文附帶了證明過程):

這裏還給出知識結構對應的粗糙熵定義及計算過程:

知識庫的知識量(注意知識量是E,上面的粗糙熵是Er):

一些屬性:

實驗與結果

實驗數據

爲了驗證上述測量方式對於知識庫不確定性的量化衡量能力,作者在三個UCI數據集上進行了實驗,數據集的統計信息如下表:

實驗結果

首先對於三個數據集,均獲取到上一節介紹過的四種測量方式如下(以Nursery爲例),|U|=12960,|A|=8,Pi=ind({ai})(i = 1,2,…,8), Pi={P1,P2,…,Pi}(i = 1,2,…,8)

圖3,4描述了這三種不同知識庫(不同不確定性)的測量結果:

從各個指標的散度來看,知識量在衡量知識庫不確定上表現出了更好的性能。

 


 

OpenKG

開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文,進入 OpenKG 博客。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章