論文淺嘗 | 知識圖譜的不確定性衡量

原創

开放知识图谱

2020-06-14 14:52

論文筆記整理：譚亦鳴，東南大學博士。

來源：Knowledge and Information Systems volume 62, pages611–637(2020)

鏈接：https://link.springer.com/article/10.1007/s10115-019-01363-0

概要

本文的核心工作是利用知識結構來衡量知識庫的不確定性。文章的內容涵蓋了以下幾個部分：

1.首先隊知識庫的知識結構進行介紹；

2.以包含度特徵爲基礎，提出知識結構與知識庫之間的依賴以及獨立性；

3.研究給定知識庫的不確定性度量（並證明該度量方法是以知識庫的知識結構爲基礎）；

4.最後，通過實驗驗證了本文方法的有效性，並從統計學的離散型和相關性兩個方面做有效性分析。

動機與思路

作者用自問自答的形式對知識庫不確定進行論述：

爲何研究知識庫不確定性的度量？因爲知識庫本身具有不確定性。

爲何研究知識庫的知識結構？因爲知識結構有助於從知識庫中發現知識。

爲何使用知識結構衡量知識庫的不確定性？因爲很難對比給定知識庫的不確定性值（原文是“This is because it is hard to compare the size of measure values of uncertainty for a given knowledge base.”，這句話沒看明白，我的理解是：由於不同知識庫的實體/關係規模差異較大，直接對知識庫做不確定性衡量得到的量化結果不適合（不能夠）反映出不同知識庫之間的不確定性差異，因此要使用一個高層特徵（知識結構），來代表並對不確定性的量化衡量做一個類似歸一化的效果。），而且如果獲取到兩個知識結構之間的依賴關係，可以利用這個關係參與比較知識庫之間的不確定性差異。

概念與定義

首先，作者使用矩陣M對於二元關係R進行了如下描述：

我們可以將矩陣中的x理解爲知識庫中的實體，R表明實體之間的關係，當R(x_i, x_j) =1時，表明x₁，x₂之間存在關係R.

可以看到，R在矩陣中可能構成三種關係場景（令實體集合爲U，x, y∈U）：

1.xRx （Reﬂexive）

2.xRy且yRx（Symmetric）

3.xRy，yRz，且xRz（Transitive）

當R滿足上述三種情況時，被稱爲“equivalence relation on U”,R∗(U)則代表所有equivalence relation on U”的集合的族（我理解爲子集的集合）

對於一個equivalence relation R，通過以下公式，可以抽取實體集U在R上對應的類別子集：

因此，利用equivalence relation R可以對U進行類別劃分，即：

故作者在這裏提出定義：

2.1當R是U的一個equivalence relation，那麼(U, R)被視作一個Pawlak近似空間（這裏需要對粗糙集的概念做一個初步瞭解），在此基礎上，X∈2^U（U的所有子集的族）的近似上下界可以通過以下公式定義：

2.2 當R∈2^R*(U)時（R*(U)指U上所有的equivalence relation的集合），(U, R)可以表示一個知識庫，舉個栗子來看：

可以看到這個知識庫裏有6個實體，4種關係，對應得到了四組矩陣。

因此對應可以得到知識庫對應的近似空間的上下界：

知識結構定義：

對於一個知識庫(U, R)，對於r∈R，可以通過以下公式描述r的知識結構：

因此整個知識庫的知識結構爲：

對於兩個知識庫(U, P)與(U, Q)，當：

則

知識結構之間的依賴性與獨立性：

（參數在前文均已介紹過，這裏不再贅述）

Inclusion degree（是一種衡量inclusion relationship質量的標準），以下定義給出了兩個集合向量之間的Inclusion degree（3.9取值範圍及定義，3.10計算方式）：

作者描述了一個計算inclusiondegree的例子：

1.首先給出兩個知識庫的知識結構：

2.計算inclusiondegree的過程爲：

模型與算法

知識庫粒度檢測：

（首先給出粒度定義）

粒度的量化值如以下公式得到（作者在原文中對獲取過程做了證明）：

並提出定理：

作者認爲，知識粒化符合粒運算特徵，並且從不同的層次重新定義了知識和信息。粒度測量值隨類別增加而遞減。缺陷在於無法區分粒度相似但結構不同的知識庫。

知識庫的熵檢測：

（也是先給出了定義及知識熵的計算方式，可以看到這裏的熵是完全基於知識結構的（定理4.8））

並且知識結構的關係與熵的關聯性如下（原文附帶了證明過程）：

這裏還給出知識結構對應的粗糙熵定義及計算過程：

知識庫的知識量（注意知識量是E，上面的粗糙熵是E_r）：

一些屬性：

實驗與結果

實驗數據

爲了驗證上述測量方式對於知識庫不確定性的量化衡量能力，作者在三個UCI數據集上進行了實驗，數據集的統計信息如下表：

實驗結果

首先對於三個數據集，均獲取到上一節介紹過的四種測量方式如下（以Nursery爲例），|U|=12960，|A|=8，P_i=ind({a_i})(i = 1,2,…,8), P_i={P₁,P₂,…,P_i}(i = 1,2,…,8)：

圖3，4描述了這三種不同知識庫（不同不確定性）的測量結果：

從各個指標的散度來看，知識量在衡量知識庫不確定上表現出了更好的性能。

OpenKG

開放知識圖譜（簡稱 OpenKG）旨在促進中文知識圖譜數據的開放與互聯，促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文，進入 OpenKG 博客。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Dokcer部署Kafka集羣

docker網絡規劃 docker network create kafka-net --subnet 172.20.0.0/16 docker network ls zookeeper1（172.20.0.11 2184:2181

2024-05-16 14:31:24

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

「Pygors系列」一句話導讀： MinGW-w64只有編譯器，MSYS2帶着更新環境，WSL2實用性比較高歷史與淵源 Windows平臺 Linux平臺二進制兼容 WSL2：運行Linux程序 Wine：運行Wi

2024-05-16 14:29:14

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

「Pygors系列」一句話導讀： Python、Go、Rust、C程序跨平臺GUI框架研究。一、問題 Pygors是什麼？ Pygors是我自己創造的一個詞，就是Python、Go、Rust、C四種語言的合體。目的是爲了跨平臺GUI應

2024-05-16 14:29:14

【Linux命令學習】lsof查看打開的文件

lsof： list open files 作用1：可查端口號被哪個進程佔用比如我們跑自動化，經常會遇到端口號被佔用，無法啓動driver lsof -i :8081 lsof 輸出的結果含義： fd：文件描述符的數字，通常是一個

金大鑫要堅持

2024-05-16 14:27:04

MacOS添加，查看，刪除用戶

1. 添加用戶在macOS中，可以通過命令行使用dscl（Directory Service command line utility）工具來添加用戶。以下是使用dscl添加用戶的步驟：打開終端：可以通過在Spotlight搜索中輸

金大鑫要堅持

2024-05-16 14:27:04

Flink執行圖

Flink的代碼編寫流程爲env->source->transform->sink，基本所有的代碼都是大致按照圖1的流程進行代碼編寫，當然中間也會有一些封裝之類的。 Flink代碼寫好後，它的任務調度執行圖按照生成順序分爲:邏輯流圖(

人不瘋狂枉一生

2024-05-16 14:23:03

Garnet：微軟官方基於.NET開源的高性能分佈式緩存存儲數據庫

前言前不久Redis宣佈從 Redis 7.4 開始，將原先比較寬鬆的 BSD 源碼使用協議修改爲 RSALv2 和 SSPLv1 協議，該協議變化意味着Redis不再開源。今天給大家分享一款完全開源（MIT協議）、免費的Redis替代性

2024-05-16 14:22:03

nodejs學習07——API

接口一、簡介 1.1 接口是什麼接口是前後端通信的橋樑簡單理解：一個接口就是服務中的一個路由規則，根據請求響應結果接口的英文單詞是 API (Application Program Interface)，所以有時也稱之爲 AP

2024-05-16 14:21:53

nodejs學習06——小案例

2024-05-16 14:21:53

🔥 Java Solon v2.7.6 發佈

Java Solon 是什麼框架？ Java “新的”應用開發框架。開放原子開源基金會，孵化項目。從零開始構建（非 java-ee 架構），有靈活的接口規範與開放生態。追求：更快、更小、更簡單提倡：剋制、簡潔、高效、開放、生態

2024-05-16 14:21:13

Puppeteer！

什麼是Puppeteer Puppeteer 是一個由 Google 開發的 Node.js 庫，它提供了一組用於控制 Headless Chrome 的 API。 Headless Chrome 是 Chrome 瀏覽器的無界面版本，可以

2024-05-16 14:17:02

openstack虛擬機用keep alive添加的VIP，其它機器無法訪問

neutron port-list |grep ipneutron port-update a7fbxxf6cc2 --allowed_address_pairs type=dict list=true ip_address=vipne

2024-05-16 14:13:52

apisix~authz-keycloak插件介紹

參考：https://apisix.apache.org/docs/apisix/plugins/authz-keycloak/ kc插件源碼梳理及原理說明如果只是進行keycloak頒發的token進行校驗（簽名校驗和有效期校驗），

2024-05-16 14:12:42

Dynamic-Datasource動態數據源

1、添加請求對應的數據源標籤 DynamicDataSourceContextHolder.push(ds); 2、添加數據源 3、動態添加數據源 private DynamicRoutingDataSource dataSo

2024-05-16 14:12:02

NETCore中實現一個輕量無負擔的極簡任務調度ScheduleTask

至於任務調度這個基礎功能,重要性不言而喻,大多數業務系統都會用到,世面上有很多成熟的三方庫比如Quartz,Hangfire,Coravel 這裏我們不討論三方的庫如何使用而是從0開始自己製作一個簡易的任務調度,如果只是到分鐘級別的粒度基

2024-05-16 14:04:41

24小時熱門文章

最新文章

最新評論文章