陳華鈞等 | OpenKG區塊鏈:構建可信開放的聯邦知識圖譜平臺

文章導讀

本文介紹了OpenKG在區塊鏈方向的一些實踐和嘗試。經過一年努力,OpenKG初步完成了底層區塊鏈平臺測試,以及OpenKG數據集、工具集和Openbase細粒度知識衆包的上鍊測試工作。在這個測試平臺中,已包含1033位確權的知識貢獻者。上鍊測試兩個月,累計由真實知識消費者觸發的知識點亮和鏈上存證次數已達55萬次日均峯值一萬多次),並首次測試實現了實體/三元組粒度的知識確權目前,通過OpenKG發佈的開放圖譜和開源工具,以及通過Openbase衆包採集的三元組,OpenKG都在鏈上進行存證操作,並計算和分配產生的榮譽值。OpenKG希望通過這項工作爲知識圖譜社區提供更加可信、可溯源的知識衆包平臺

本文也梳理了在OpenKG上鍊實踐過程中的一些思考:知識是有價值的,即使是權限可控的單一機構內部,知識來源也是多樣化的,必定存在知識的價值量化、確權、溯源、隱私及可信等多方面問題。要在知識生產和消費閉環中平衡知識的責、權、利,並有效的激勵衆包,一種方法就是讓知識上鍊,並構建知識的區塊鏈系統。OpenKG作爲新技術測試牀,在相關方向努力做一些粗淺嘗試,也希望爲各企業機構建立知識圖譜衆包平臺提供參考。在實踐過程中,我們也發現很多問題和挑戰,如細粒度知識確權帶來的性能問題、細粒度知識衆包的價值計算公平性問題、知識圖譜的去中心化存儲問題等,這些都需要更深入的研究和實踐。

本文作者:陳華鈞(浙江大學)、胡凝(Onchain)、漆桂林(東南大學)、王昊奮(同濟大學)畢楨(浙江大學)、李捷(Onchain)、楊帆(浙江大學)

版權聲明:本文版權歸OpenKG及作者所有,轉發及摘錄請註明來源


目錄

1. 知識圖譜的價值聯邦

1.1 從語義網的三個內涵說起

1.2 知識的價值鏈

1.3 聯邦知識圖譜衆包

2 知識圖譜與區塊鏈

 2.1 關於區塊鏈與分佈式賬本

 2.2 鏈上知識:知識的區塊鏈

 2.3 開放知識圖譜與區塊鏈

3 OpenKG上鍊:鏈上的知識圖譜

 3.1 OpenKG上鍊架構

 3.2 OpenKG的價值模型

 3.2.1 K-Point:知識價值度量

 3.2.2 OpenKG Token:榮譽值度量

 3.3. OpenKG區塊鏈的技術實現

 3.3.1 OpenKG上鍊基本技術架構

 3.3.2 OpenKG中的知識確權

 3.3.3 OpenKG的知識溯源

 3.3.4 OpenKG的可信度量

 3.3.5 OpenKG區塊鏈啓動方案

 3.4 OpenKG.CN上鍊實踐:數據集與工具集上鍊

 3.4.1 OpenKG.CN簡介 

 3.4.2 圖譜資源註冊與上鍊

 3.4.3 圖譜資源的價值點亮

 3.5 OpenBase上鍊實踐:細粒度知識的上鍊

 3.5.1 OpenBase簡介

 3.5.2 細粒度知識上鍊

 3.5.3 細粒度的知識點亮

4 總結與展望

5 致謝


1. 知識圖譜的價值聯邦

1.1 從語義網的三個內涵說起

知識圖譜的早期理念源於Web之父 Tim Berners Lee 關於語義網(The Semantic Web) 的設想,旨在採用圖的結構來建模和記錄世界萬物之間的關聯關係,並沉澱關於萬物的知識。經過近二十年的發展,知識圖譜的相關技術已經在搜索引擎、智能問答、語言及視覺理解、大數據決策分析、智能設備物聯等衆多領域得到廣泛應用,被公認爲是實現認知智能和智能互聯的重要基石。

儘管知識圖譜技術取得飛速進步,但仍然僅實現了語義網的三分之一的願景。根據Tim Berners Lee的早期設想,語義互聯網的目標是“Using the WWW infrastructure to create a global, decentralized, weblike mesh of machine-processable knowledge”。這有三個方面的內涵:知識互聯、去中心化和知識的可信。三個內涵分別對應互聯網的三個核心問題。

  • 知識互聯旨在設計一種統一的知識表示框架來將分散的數據相互關聯起來,以便利用圖的結構特點來實現體驗更好的搜索、問答、分析等能力。早期的Linked Data即是這一理念的體現。而知識圖譜則是目前知識互聯最有影響力的體現。

  • 去中心化是對Web架構的設想。儘管Web仍然沒有實現去中心化設計,但互聯網數據具有分散自治的特點,知識的生產者理應擁有知識的所有權和控制權。因此,去中心化構想反映的是對知識確權的要求。

  • 知識的可信是指通過互聯網發佈的知識應該是可溯責的(Accountability)。由於互聯網的開放性和匿名性,知識可能真假難辨,且會隨着時間真假髮生變化。因此,合理的知識發佈機制還需要對知識進行可信度量和鑑別真假。

這三個內涵第一個與知識的表示框架有關,第二個與互聯網的分佈式架構有關,第三個與互聯網的社會屬性有關。而當前的企業級知識圖譜管理架構主要考慮知識的互聯,而忽視或弱化了知識的價值量化、分佈式確權和可信度量等衆多問題。

1.2 知識的價值鏈

  • 知識是有價值的

知識是有價值的。互聯網中的知識之間存在相關性,這些知識相互鏈接,形成知識圖譜。互聯網作爲知識保存的一個載體,同時支持知識使用的場景,也承載新知識的產生。更爲具體來說互聯網知識有以下幾個特性:

  1. 知識圖譜包含知識和知識之間的聯繫;

  2. 知識節點存在價值,知識的聯繫也有價值;

  3. 知識因爲“被使用”而產生價值;

  4. 被“證僞”的知識也存在價值,甚至在某些場景中,“反知識”更加令人記憶深刻;

  5. 知識的價值可以隨着知識的聯繫進行傳遞。

  • 知識的責、權、利

知識圖譜技術強調將分散的碎片化數據相互關聯、鏈接融合。即使是在單一的企業或機構內部,知識圖譜的數據也通常來源於不同部門。知識圖譜的構建通常需要依靠多部門協作完成。因此,一個好的知識圖譜的構建平臺需要有明晰的責、權、利方面的考慮,而非僅僅考慮數據清洗、算法抽取、協同編輯等功能。

如圖1所示,從知識的生產者的視角,首先要考慮知識的價值量化方法。簡單的價值量化模型可以依據知識的使用頻率,即知識被使用的越多,知識的價值越高。合理的價值量化是知識衆包激勵的基本前提。

其次,要考量知識的所有權和控制權保護,即:知識確權。即便在一個權限可集中控制的企業內部,由於知識圖譜中的知識粒度很細,在三元組級別考慮知識的確權問題也帶來極大的技術挑戰。知識的合理確權也是知識衆包激勵的基本保障。

再次,知識產生的結果未必總是正面的,錯誤、虛假甚至惡意的知識會給下游的知識使用者帶來不利後果,因此不僅要考慮知識獲取的正面激勵,還需要提供必要的機制來追溯知識的來源,即:知識溯責(Accountability)。有效的知識溯責,可以幫助提升知識圖譜的衆包質量,對抗虛假和惡意的知識輸入。

更進一步,知識最終需要解決知識的可信問題,即:可信度量。知識圖譜中的每條三元組代表對客觀世界的一條事實描述。這些事實型知識不僅有真假緯度的可信問題,也因爲很多事實本身具有不確定和時效性,也帶來知識不確定的可信度量問題。

             

圖1. 知識圖譜的價值聯邦

  • 知識的價值點亮與傳播

知識的消費是衡量知識價值最直接的方式。知識被用得越多,知識的價值越高。同時知識的消費觸發知識的價值傳播。我們將知識被消費的過程稱爲知識的價值點亮。知識圖譜使用場景支持不同的知識使用者有限的“點亮”知識圖譜中的節點,從而觸發知識傳播。

搜索點亮”是指知識的使用者在搜索過程對知識進行消費,從而觸發被搜索知識條目的價值點亮。知識圖譜支持語義關聯搜索,進一步的關聯搜索將繼續觸發新的知識點亮。每一步點亮都對產生的價值進行記錄和存證。同時由於知識來源於不同的生產者,價值也需要以合理的方式分配給價值傳播鏈上對應的知識生產者。

問答點亮”和“搜索點亮”比較類似,消費者和知識庫進行問答交互的過程即是消費過程。被問答觸及的知識條目是被問答點亮的知識,問答檢索過程中從起始節點到達答案節點所遍歷的中間節點也將被點亮和價值存證。

推理點亮”是指推理過程觸發的知識點亮。知識圖譜中的知識通常是不完備的,對知識圖譜的推理過程是基於知識圖譜中的已有知識完成。同時,由於知識來源衆多,推理點亮的過程可能也是以聯邦的方式完成,即:聯邦推理點亮

分析點亮”是指將來源不同的知識進行綜合分析從而不斷觸發知識圖譜中相關知識的點亮過程。同樣的,由於知識來源多樣,分析的過程也可能是以聯邦方式完成的,比如可能通過聯邦學習的方式建立分析模型

如下圖(橫軸代表時間,每條曲線都經過校準,以便在同一座標系內可見):

             

圖2. 知識的價值曲線

 

曲線

特點

知識價值(單價)

知識單位價值發展的過程,當少數人瞭解的時候,單位價值較高,隨着越來越多的接受和使用,逐漸降低。

知識受衆

知識受到領域限制,瞭解的人逐漸增多,本領域逐漸飽和。知識受衆越多,知識使用越多。

相關知識點

隨着知識被接受,會推理或者發現與其他知識的關係,形成新的知識,相關知識點越多,知識使用越多。

知識的價值

知識使用次數和知識單價形成知識的價值。

知識的累積價值

由於知識的一慣性,知識具有累積價值。

語義網的三個內涵和價值傳播模型提出了三層次的“分佈”需求:每個知識點和知識聯繫由貢獻者(可以是人工智能)提供,這些貢獻者表現出“分佈”的形態。

1.3 聯邦知識圖譜衆包

綜上所述,知識是有價值的,知識的生產、交換和消費必定形成社區和羣體的交易和協作。我們把通過社區和羣體的聯邦式協作構建的知識圖譜稱爲聯邦知識圖譜(Federated Knowledge Graph)

聯邦知識圖譜因爲需要構架在一個分散並可能去中心化的分佈式網絡上,必定面臨激勵、確權、溯責、信任和隱私等諸多問題。而現有集中式的知識圖譜構建平臺不考慮不同單位和部門的權力、責任和利益,也就無法激勵知識的共享互聯,也無法保證知識的真實性和時效性。

如圖3所示,完整的知識圖譜構建和消費需要考慮知識生產、知識傳播和知識消費三個層次。知識生產層對應傳統的如知識建模、抽取、融合、校驗等技術。知識的傳播層責需要考慮知識的價值量化、知識確權、知識溯責、知識的可信度量、知識衆包的共享激勵以及數據的隱私保護。知識消費層包含有搜索問答、推理分析、聯邦知識學習以及流程自動化如RPA等各種需要建立在分散式知識源的系列應用

        

圖3. 聯邦知識圖譜技術平臺架構

2 知識圖譜與區塊鏈

2.1 關於區塊鏈與分佈式賬本

分佈式賬本(Distributed Ledger Technology,縮寫作 DLT)是一個於多站點﹑多地區或多家機構所組成的網絡上進行電子數據複製﹑共享及同步的共識,不存在中心管理員或集中的數據存儲。交易記賬由分佈在不同地方的多個節點共同完成,而且每一個節點記錄的是完整的賬目,因此它們都可以參與監督交易合法性,同時也可以共同爲其作證。

區塊鏈是分佈式賬本技術的一種。區塊鏈每個節點都按照塊鏈式結構存儲完整的數據,並且每個節點的權利和義務相同。區塊鏈以P2P對等網絡構成網絡層基礎架構,以分佈式數據庫作爲物理載體,以分佈式時間戳構成區塊時序,以共識算法實現數據的一致存儲,以密碼學協議爲鏈上數據的傳輸和訪問提供安全性、完整性、無法抵賴性的技術支撐,以智能合約的技術爲分佈式應用提供可擴展的合約編碼和一致執行的能力。區塊鏈是點對點通信、數字加密、多方協同共識算法等多個領域的融合技術,具有防篡改、鏈上數據可溯源(可確權)的特性。

區塊鏈節點獨立運營,僅對自己負責,以共識算法達成區塊鏈節點之間的賬本一致性。技術運營角度,節點可以“作惡”,但是區塊鏈節點的作惡行爲,可以在共識算法的容錯範圍之內被識別出來的;商業運營角度,節點以個體利益最大化爲原則同其他節點進行協同工作,有意願監督網絡中其他節點的作惡行爲,而作惡行爲的代價高於破壞帶來的可能收益,從而達成“防篡改”的效果。這是一個 “競爭性協同”的技術環境。因此,在共識容錯範圍之內,區塊鏈技術提供無需信任擔保的 “信任”基礎設施。

簡而言之,區塊鏈提供事務和數據可信的確權和防篡改能力。基於區塊鏈的系統結構可以表述爲:以中心化技術提供高性能的業務實現,以多中心化區塊鏈網絡支持可信的基礎設施,提供分佈式的去中介化的實用場景。

由於本文僅僅使用到部分區塊鏈相關技術,限於篇幅,本文不對區塊鏈及分佈式賬本技術做詳細介紹。更多技術細節請參考相關書籍。

             

圖4. 不同類型的分佈式網絡架構

 

2.2 鏈上知識:知識的區塊鏈

如前文所述,知識是有價值的,要解決知識生產和消費閉環中的價值量化、確權、溯源及可信度量等問題,就需要讓知識上鍊,通過構建面向知識的區塊鏈來解決諸多問題。具體而言,區塊鏈之於知識有如下幾個方面的價值:

  • 利用區塊鏈技術進行知識數據的保護,在知識構建和使用的過程中,採用了多種數據密碼算法,保證了數據的隱私和安全,同時基於分佈式賬本特點,在區塊鏈網絡中多個節點保留完整的知識數據和索引,避免了知識的丟失和破壞;

  • 利用區塊鏈技術進行信息公開,基於分佈式賬本實現聯邦知識圖譜各參與方的知識同步和一致性確權,且區塊鏈具有防篡改、可追溯的特點,保證了公開數據的真實可信;

  • 利用區塊鏈技術防止知識和所有權造假,基於區塊鏈防篡改的特性,避免未經共識的知識上鍊或任意一方對已上鍊的數據進行隨意篡改,也對僞造所有權的行爲提供完整的證據鏈;

  • 利用區塊鏈技術進行知識確權,可利用區塊鏈上交易不可抵賴性特點,對知識聯邦業務中產生的交易或數據進行簽名,從而保證了知識確權;

  • 利用區塊鏈技術解決過程追溯問題,可利用區塊鏈上交易可追溯特點,對知識聯邦中知識的構建、發展、使用等場景進行全過程追溯;

  • 利用區塊鏈技術進行身份認證,可以基於分佈式身份的特性,對知識聯邦中涉及的人、機構、設備等實體進行身份標識和身份驗證,保證參與實體的身份真實可信;

  • 利用區塊鏈技術解決多方協同問題,在分佈式賬本保證知識數據實時同步的基礎上,基於智能合約進行知識聯邦中各參與方的流程響應及協同過程的記錄和貢獻的確權貢獻的確權。

2.3 開放知識圖譜與區塊鏈

相比起企業內部的多部門協同知識圖譜構建,開放領域知識的構建更加體現羣體、社區等社會屬性。同樣的,開放知識圖譜的構建過程,也是一個由知識貢獻、知識組織方式、知識使用組成的迭代過程。因此,構建開放的知識圖譜也需要一個可信的協同框架,能夠給出解決方案並支持持續的迭代和發展:開放的知識貢獻方式、開放的分佈式知識組織結構、開放的知識管理和使用模型。相較於單一企業內部知識圖譜衆包解決方案,這個開放的協同框架需要解決更多參與方的相關問題:

  • 識別更多的個體角色、避免開放知識寡頭化:識別相同實體以不同角色參與協同的工作,明確不同角色對開放知識網絡的貢獻;進一步的,開放知識貢獻者數據自主管理,避免數據集中導致的未經授權的濫用;

  • 支持更分散的信任源、更可控的資質反饋和校準:針對不同領域的領域專家的資質認定,細化粒度,已快速達成龐大開放知識網絡中的局部一致性;進一步的,通過專家貢獻的評審和反饋,調整資質認定的等級,反過來校準更多源、更細粒度的量化評估方案;

  • 量化衆多參與者的貢獻、追蹤開放知識的價值並根據反饋調整知識價值模型的能力:開放的框架需要實際參與人的貢獻,需要貢獻的量化和評估工具,對於貢獻的量化也體系出知識的價值;進一步的,根據開放知識在使用中的價值變化,也可以進一步修正量化模型。

區塊鏈與分佈式賬本相關技術可以解決上述問題:多中心化區塊鏈網絡提供可信的基礎設施,全程跟蹤開放知識發展的過程並保證數據確權;去中介化身份體系支持多維信任源和分佈式數據令牌的管理;區塊鏈的分佈式通證方案從技術上支持知識點的資產化,體現了開放知識的價值和開放知識的分佈式組織形式。利用分佈式賬本技術,開放知識的產生、發展、推演都被記錄下來,開放知識的價值和相關性都可以進行分析,而開放知識的確權也可以完整的記錄下來,同時所有基於開放知識圖譜構建的應用都基於引用。利用基於區塊鏈技術構建開放知識圖譜,解決了開放知識價值的認定、開放知識貢獻的確權、開放知識傳播和開放知識關係的分佈式組織方式。

3 OpenKG上鍊:鏈上的知識圖譜

3.1 OpenKG上鍊架構

OpenKG旨在構建以中文爲基礎的開放域知識圖譜共享平臺,同時促進知識圖譜算法模型和工具的開源開放以及知識圖譜技術的普及應用。OpenKG旗下包括多個子項目和資源網站,如:

  • 開放資源共享平臺OpenKG:  http://openkg.cn ,主要匯聚開放數據集及工具集等粗粒度的開放資源。

  • 中文開放知識圖譜cnSchema:http://cnschema.org ,主要提供衆包實現的開放知識圖譜Schema。

  • 中文開放知識圖譜衆包平臺OpenBase:http://openbase.openkg.cn ,主要定位於細粒度三元組級別的知識圖譜衆包平臺。

經過近一年努力,OpenKG完成了基礎區塊鏈平臺的搭建與測試工作,以及OpenKG數據集、工具集和Openbase細粒度知識的上鍊測試目前,通過OpenKG發佈的開放圖譜和開源工具,以及通過Openbase衆包採集的三元組,OpenKG都在鏈上進行存證記錄操作,並計算和分配產生的榮譽值。需要特別說明的是:考慮到性能的約束及必要性,目前僅實施了對知識圖譜的操作(上傳、審覈、編輯、搜索、下載、查詢等)的上鍊,知識圖譜數據本身並未進行上鍊存儲。

在這個測試平臺中,已經包含超過1033位確權的知識貢獻者,上鍊測試的兩個月日均價值點亮峯值達10691次,總計點亮和鏈上存證次數超過55萬次,並首次測試實現了實體/三元組粒度的知識確權。

OpenKG區塊鏈網絡初始節點目前暫定爲七個,交付給不同的大學或企業機構來運營,這個七個節點相互獨立,構成多中心的OpenKG區塊鏈基礎架構,通過共識機制同步OpenKG分佈式賬本,共同提供分佈式的可信基礎設施。未來根據需要逐步擴增更多的核心節點。

後續章節將詳細介紹OpenKG上鍊的具體實踐過程及成果。

      

     圖5. OpenKG整體上鍊架構

圖6. OpenKG 5月點亮次數統計

3.2 開放知識的價值模型

OpenKG上鍊所需要解決的第一個問題即:知識的價值度量。由於知識圖譜的特點,在對知識圖譜的價值進行度量計算時需要具體到三元組級別,因此我們需要設計細粒度的知識價值度量模型。其次,由於OpenKG採用社區衆包的形式匯聚知識,我們還需要設計合理的榮譽度量模型對知識貢獻者的貢獻價值進行度量。

OpenKG基於知識的價值模型進行初始的價值模型設置,知識的單位使用的價值根據知識使用(知識受衆和相關知識點的迭代使用)進行評估,進一步將評估的結果作爲知識貢獻者進行貢獻計量的計算依據。

3.2.1 K-Point:知識價值度量

OpenKG設計了K-Point (Knowledge Point)合約以體現知識價值。OpenKG對於知識價值的評估基於簡單模型,如:每次知識被使用即爲知識追加Knowledge Point。隨着知識使用場景的增多,OpenKG會持續使用一些可學習的算法,針對不同領域的知識點價值評估模型進行校準和優化調整;

在實際應用過程中,對於知識價值預期和知識使用預期需要進行持續的校準。在起始情況,使用簡單卡方分佈進行擬合,並且使用簡單模型進行擬合。

             

在不考慮知識應用相互關聯的情況下,

             

K 爲單個知識點,得到:

             

                           爲第 n 天知識使用次數,知識點價值週期爲 t(天),則第 n 天知識校準單價爲:

            

知識每次使用,對應知識單價會對知識點進行加權。

3.2.2 OpenKG Token:榮譽值度量

OpenKG設計了OpenKG-Token合約,從知識貢獻價值衡量的角度,頒發給知識點貢獻者(發佈者、審閱者、修改者),作爲憑證。OpenKG-Token根據根據知識使用時的知識價值度量,按照知識貢獻進行分配,代表知識貢獻者的權益。起始情況下,價值會均分給知識貢獻者, 。後續會考慮根據貢獻權重進行知識貢獻的記錄。

OpenKG-Token榮譽值度量可以應用在更多的知識使用場景中。比如,在OpenKG知識聯邦中通過OpenKG-Token交換合約交換知識點使用權。

榮譽值總量滿足如下關係:

             

起始情況下,

3.3. OpenKG區塊鏈的技術實現

             圖7. OpenKG上鍊模型

 

3.3.1 OpenKG上鍊基本技術架構

OpenKG.CN是OpenKG開放資源共享平臺,用戶可以在該平臺自由地貢獻和下載各種類別的資源,因爲平臺上的各種資源組織形式差異較大,所以基本的數據單元定義爲一條資源(一個指向真實數據的鏈接或一個包含具體數據的文件),而不是一個三元組。OpenKG.CN平臺目前支持三種區塊鏈操作,分別是:用戶註冊、資源註冊和資源下載。

             

圖8. 上鍊基本技術架構

 

在可信基礎設施層面,OpenKG區塊鏈採用VBFT共識算法在傳統BFT算法的基礎上,引入"VRF(可驗證隨機函數)",提高了共識算法的抗攻擊能力的同時,提升了共識速度;本體網絡採用WasmJIT技術作爲智能合約執行環境,目前執行效率在業界是最高的;本體網絡提供了分片和Layer2的技術,爲兼顧鏈上業務性能和區塊鏈網絡擴容方案。

在聯邦知識圖譜和業務應用層面,以分佈式(去中介化)身份標識協議(ONT ID)識別知識點、知識關係、知識貢獻者和知識使用者,以分佈式資源交互框架(DDXF)管理和追蹤知識發展和實用全過程,以跨系統互操作協議支持知識在不同系統中的業務服務。

其中,關於賬戶與數據標識,OpenKG區塊鏈使用非對稱密碼學算法來作爲區塊鏈賬本數據和所有者之間物權關係的證明。OpenKG支持用戶私鑰的代理託管服務,保證用戶的互聯網用戶體驗。對於個人隱私有訴求的用戶,也可以方便的使用自己的公私鑰對取回個人的知識貢獻並確權。ONT ID將被用作OpenKG知識生成、使用場景的各類系統和區塊鏈節點中的分佈式身份標識。基於ONT ID可以爲標識指代實體簽發可驗證憑證,可驗證憑證支持多維認證,可以接入不同的身份信任源。分佈式身份標識、多維度的可驗證憑證,爲知識的不同使用場景提供了可信的賬戶體系和風控模型。

通過OpenKG的分佈式數字身份體系,支持用戶個人數據貢獻的鏈上資質認定、確權和實際使用的邏輯。任意知識使用場景可以自主開發應用平臺,通過分佈式身份標識的可驗證憑證對用戶資質進行校驗,方便知識貢獻併爲知識使用者提供知識服務。

進一步的,OpengKG將知識數據的權限令牌和鏈上標識的數據data-token結合起來,在使用區塊鏈防篡改、可追溯、去中介確權等特性的基礎上,仍然支持中心化的知識服務提供,滿足知識使用場景的高效率需求。

             圖9. OpenKG的數據權限管理模型

 

3.3.2 OpenKG中的知識確權

OpenKG的聯邦式知識圖譜構造和使用過程中,涉及知識所有、整理、加工、查看、使用等多種權限。結合開放性知識圖譜中不同知識數據的粒度,如數據集、實例、Triple三元組等,需要支持對應不同粒度知識的確權。OpenKG區塊鏈使用分佈式身份和token方案爲多個知識系統提供跨系統協同的賬戶、數據和權限管理。

首先,OpenKG 數據持有ONT ID,不同系統中數據的標識唯一,因此支持跨系統知識的標識識別。進一步的,針對不同的知識使用場景,知識所有者、貢獻者可以主動創建知識權限令牌,並且整個授權過程上鍊,因此令牌使用過程中,確權安全可信。

同時,OpenKG 用戶持有ONT ID,可以在不同系統不同知識使用場景中識別同一用戶,並且可以跨系統追溯到知識貢獻者,保證使用過程的溯源。

如下圖所示,知識確權的具體實現細節具體體現在:

  • 數據和用戶實體具有ONT ID;

  • 針對不同知識使用場景,不同知識的增刪改查操作通過鏈外令牌管理;

  • 每一個鏈外知識數據權限令牌對應一個鏈上數據Token,即:OpenKG的 data-token;

  • 使用鏈上data-token和ONT ID的物權關係進行跨系統的令牌確權;

  • 通過鏈上data-token和鏈外系統令牌的綁定關係進行操作的鑑權,最終滿足可信的跨系統知識使用場景。

             

圖10. OpenKG的知識確權模型

3.3.3 OpenKG的知識溯源

OpenKG通過知識貢獻者的ONT ID管理知識ONT ID,支持OpenKG的知識應用場景中方便的創建使用令牌,進一步支持跨系統的使用確權。新知識綁定新的ONT ID,根據現有知識推導出的新知識的過程以區塊鏈交易的形式在鏈上記錄下來,並通過區塊鏈智能合約交易的形式自動構造ONT ID。所有知識的創建和加工過程都以鏈上交易的形式保留在鏈上,知識的標識在OpenKG的多個系統中保證唯一,因此支持知識溯源。

 

             

圖11. 知識溯源過程

 

3.3.4 OpenKG的可信度量

OpenKG從三個層次提供可信度量:

  • 基礎設施層面:OpenKG區塊鏈的網絡規模和節點分佈程度爲基礎可信提供背書;

  • 知識質量層面:知識質量通過知識價值體現,知識價值通過知識的使用體現。OpenKG根據知識領域和知識使用行爲分析獲得知識價值量化的方案,並在量化反饋的過程中持續迭代修正。知識使用的過程在鏈上有記錄,防篡改、可追溯,可以爲數據的真實性和一致性提供信任背書;

  • 知識貢獻者和使用者層面:由於所有的行爲都在鏈上記錄並可追溯,貢獻者或使用者行爲的分析和知識質量的結果可以作爲貢獻者或使用者的可信背書。值得一提的是,區塊鏈並不能甄別作惡數據,但是系統外能夠提供作惡行爲的證明並且永久有效,反過來影響貢獻者或使用者的貢獻度。

3.3.5 OpenKG區塊鏈啓動方案

OpenKG區塊鏈網絡初始節點目前暫定爲七個,交付給不同實體運營。對於用戶來講,可以通過知識索引從不同的實體數據庫中查看知識對象。

OpenKG實現令牌token化合約,解決鏈外知識的數據實體識別和鏈外令牌鏈上確權的問題,鏈上對知識token使用的過程進行記錄保證操作過程完整性的同時保證可追溯。OpenKG支持知識貢獻者對於知識數據自主管理,支持知識的安全多方應用,在知識隱私保護的前提下,支持多方知識協作和使用。

OpenKG區塊鏈的啓動爲OpenKG的知識場景提供可信支持,包括:

  • 知識索引(資源同步);

  • 知識使用(上鍊記錄、保證安全使用和安全交換等);

  • 知識加工(新增、審計、修改、廢除);

  • 知識溯源(根據聯盟鏈歷史索查每一個知識點的來源)。

3.4 OpenKG.CN上鍊實踐:開放數據集與工具集上鍊

3.4.1 OpenKG.CN簡介

OpenKG.CN是OpenKG開放資源共享平臺,用戶可以在該平臺自由地貢獻和下載各種類別的資源,因爲平臺上的各種資源組織形式差異較大,所以基本的數據單元定義爲一條資源(一個指向真實數據的鏈接或一個包含具體數據的文件)。OpenKG.CN平臺目前支持三種區塊鏈操作,分別是:用戶註冊、資源註冊和資源下載。在OpenKG.CN中,總共包含800餘位確權用戶。

 圖12. OpenKG主站OpenKG.CN:開放圖譜數據集及工具集

3.4.2 資源註冊與上鍊

1)用戶註冊上鍊:當使用者在OpenKG.CN註冊網站用戶時,系統同步完成用戶信息在區塊鏈服務器中的註冊,生成一個鏈上賬戶作爲其他操作的主體,如圖13所示。

             

圖13. OpenKG.CN用戶上鍊

2)資源註冊上鍊:使用者在OpenKG.CN註冊用戶並通過審覈後即可向平臺上傳資源,對於每一條資源,用戶上傳的同時系統也會自動根據用戶ID以及資源ID在區塊鏈服務器完成該條資源的註冊(此時並不會生成榮譽值),如圖14所示。

             

圖14. OpenKG.cn資源註冊上鍊

3.4.3 資源的價值點亮

1)資源下載點亮:當用戶上傳的資源被其他用戶下載使用時系統會根據資源ID生成相應的榮譽值並將其分配給資源上傳者的賬戶,如圖15所示。

             

圖15. OpenKG.CN資源下載點亮

 

3.5 OpenBase上鍊實踐:細粒度知識的上鍊

3.5.1 OpenBase簡介

爲了解決細粒度的知識圖譜的衆包構建和查錯補全這類問題,OpenBase能夠同時兼顧知識圖譜的構建成本、速度的方法,由機器來幫助構建,並且由人來審覈和修改。針對已有的知識圖譜,OpenBase爲衆包人員構建一個統一的衆包平臺,實現知識圖譜的查錯審覈等任務,如圖16所示。

             

 圖16. OpenBase平臺流程

同時傳統的知識圖譜衆包平臺也無法完全解決用戶的互相信任性問題。受到區塊鏈思想的啓發,經過改造之後的OpenBase網頁端平臺嘗試解決這樣的問題。該系統是經過區塊鏈技術改造,以分佈式賬本的思想,對細粒度的知識賦予價值,並且可回溯知識的操作過程。

             

圖17. OpenBase上鍊功能示意

OpenBase上鍊之後,如圖17所示,用戶的操作諸如數據審覈、數據訪問(搜索、問答等)、數據下載等都會生成相關的榮譽值;用戶所有對數據的操作動作,也就是賬本信息,也會被記錄到區塊鏈上。

在本次的平臺中,將有新冠科研、新冠健康等數個知識圖譜的衆包過程將被記錄到區塊鏈中。每一個知識圖譜的貢獻者都會被記錄到鏈上。用戶在註冊的時候,OpenBase通過接口與鏈端進行關聯;登入OpenBase系統後,一系列的操作會被傳入到鏈端,但是訪問數據不會對訪問者獎勵榮譽值,只會對原來數據的貢獻者獎勵。

在數據審覈驗收階段,榮譽值將會被複制分配爲多份,均分給多個審覈者、驗收者以及原來的貢獻人,但是數據所有者還是原來的貢獻人。與此做對比的是,數據編輯的接口中,當一個用戶修改編輯數據之後,將和原來的貢獻者一起都成爲這條數據的所有者。

對於數據的訪問(搜索、問答等)將被視爲一種點亮操作,該操作會產生榮譽值給數據集的貢獻者;對數據進行編輯時,編輯者將與原貢獻者均分對於數據的所有權;下載數據集同樣會產生榮譽值,分爲給數據貢獻者;新增實體以及屬性的操作會被當作新的數據的註冊過程,操作者成爲新數據的所有者。

在OpenBase中,總共包含約200位確權用戶。

3.5.2 細粒度知識上鍊

1)用戶註冊:當使用者在OpenBase註冊網站用戶時,系統會同步完成用戶信息在區塊鏈服務器中的註冊,生成一個鏈上的賬戶作爲其他操作的主體。

2)數據編輯與新增:當使用者對數據進行編輯的時候,系統會同步完成數據信息在區塊鏈服務器中的更新;新增數據條目的時候,新增的知識會在區塊鏈服務器中進行註冊;如圖18所示。

             

圖18. OpenBase數據編輯與新增

3.5.3 細粒度的知識點亮

1)數據搜索與問答:當使用者對數據進行搜索與問答的時候,對應的知識會被點亮,同時生成一定數量的榮譽值。如圖19所示。

             

圖19. OpenBase數據搜索以及問答點亮

2)數據下載點亮:當使用者下載數據集,也會生成一定數量的榮譽值,用以獎勵數據貢獻者。如圖20所示。

 

             

圖20. OpenBase數據下載

3)數據審覈驗收點亮:當用戶對數據進行審覈驗收時,審覈者、驗收者、貢獻者會被獎勵一定數量的榮譽值。如圖21所示。

            

圖21. OpenBase數據審覈

 

4 總結與展望

知識是有價值的,知識之間建立關聯可以進一步增加知識的價值。知識圖譜的價值聯邦既包含知識的貢獻者,也包含知識的使用者。知識貢獻和知識使用的過程逐漸豐滿知識網絡,體現了知識圖譜的價值傳播模型。同時,知識在使用和傳播過程中,價值被不斷點亮,知識的價值被動態評估,知識的貢獻者得到合理的價值計算。這一過程對知識的確權、溯源、防篡改、鑑別虛假知識、對知識進行可信度量等多個方面都提出了新的要求。

OpenKG在這個方向上做了一些粗淺的嘗試,我們希望爲各個企業或機構建立自己的企業級知識圖譜衆包平臺提供有價值的參考。在實踐過程中,我們發現區塊鏈儘管爲解決前面所提出一些問題提供了新的思路,但並不能解決所有的問題,並且在實施知識圖譜上鍊過程中,依然面臨非常多的挑戰,如細粒度的知識確權所帶來的性能問題、大規模細粒度知識衆包的價值計算公平性問題、知識圖譜的去中心化存儲問題、知識衆包的合理激勵模型及可信度量模型等等,這些都還沒有較爲成熟的解決方案。

此外,OpenKG目前還僅實現了數據集、工具集、三元組知識的初步上鍊,知識點亮的方式主要集中於下載和搜索。後續還將推動Schema、Bots、知識圖譜算法等方面的上鍊實踐工作並探索智能問答、去中心化推理、聯邦知識學習等更爲豐富知識點亮模式

5. 致謝   

    以下志願者參與了OpenKG區塊鏈的實施及相關工作,他們包括來自浙江大學的楊帆、畢禎、葉宏彬、吳楊、餘海陽、張寧豫;來自Onchain的李捷、楊少尉、榮怡、司帥帥、徐志強,來自小米科技的戴振、彭茜、劉作鵬等,以及尚藝秋、陳陽、李娟等提供的輔助支持工作。在此一併致以謝意。


OpenKG

開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文,進入 OpenKG 網站。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章