知識圖譜系列-2-知識圖譜發展歷程及其分類

1. 知識圖譜發展歷程

知識圖譜的發展可以從人工智能和語義網(注意語義網和語義網絡是不同的)這兩個領域進行追溯。在人工智能方面,人類致力於使計算機更智能,能夠進行推理、分析、預測等高級思維活動。而知識圖譜是該目標實現的一個工具,通過將人類的知識用計算機進行表示和組織,並設計相應算法完成推理、預測等任務。其中,專家系統就是利用知識庫支撐AI的一種有效嘗試。另一方面,互聯網技術的高速發展,帶來數據爆發式增長,雖然存儲和檢索海量數據的技術也在日益提高,但是推理、預測等複雜任務,始終發展滯後,無法有效助攻商業智能等決策任務。此時,人們希望通過引入知識,使得原始數據能夠支撐推理、問題求解等複雜任務,這個目標的實踐者就是語義網(Semantic Web)

因此,知識在AI 和 語義網中目標可以總結爲知識的數據化數據的知識化。前者是爲了讓計算機表示、組織和存儲知識;後者是爲了讓數據支持推理、預測等智能任務。知識圖譜的發展歷程如下圖所示:
在這裏插入圖片描述

1.1 Knowledge Base:

通常翻譯爲“知識庫”。知識庫是人工智能的經典概念之一。最早是作爲專家系統(Expert System)的組成部分,用於支持推理。 知識庫中的知識有很多種不同的形式,例如本體知識、關聯性知識、規則庫、案例知識等。相比於知識庫的概念,知識圖譜更加側重關聯性知識的構建,如三元組。

1.2 Semantic Net/ Semantic Network:

通常翻譯爲“語義網絡”,注意要與與Semantic Web語義網區別開來。語義網絡最早是1960年由認知科學家Allan M.Collins作爲知識表示的一種方法提出。WordNet是最典型的語義網絡。相比起知識圖譜,早期的語義網絡更加側重描述概念以及概念之間的關係,而知識圖譜更加強調數據或事物之間的鏈接。
在這裏插入圖片描述

1.3 The Semantic Web :

通常翻譯爲“語義網”或“語義互聯網”,是Web之父Tim Berners Lee於1998年提出的。語義互聯網的核心內涵是:Web不僅僅要通過超鏈接把文本頁面鏈接起來,還應該把事物鏈接起來,使得搜索引擎可以直接對事物進行搜索,而不僅僅是對網頁進行搜索。谷歌知識圖譜是語義互聯網這一理念的商業化實現。也可以把語義互聯網看做是一個基於互聯網共同構建的全球知識庫。

1.4 Linked Data:

Linked Data 通常翻譯爲“鏈接數據”。是Tim Berners Lee於2006年提出,是爲了強調語義互聯網的目的是要建立數據之間的鏈接,而非僅僅是把結構化的數據發佈到網上。他爲建立數據之間的鏈接制定了四個原則:
(1)使用URI標識萬物
(2)使用HTTP URI,以便用戶可以(像訪問網頁一樣)查看事物的描述
(3)使用RDF和SPARQL標準
(4)爲事物添加與其它事物的URI鏈接,建立數據關聯。
從理念上講,鏈接數據最接近於知識圖譜的概念。但很多商業知識圖譜的具體實現並不一定完全遵循Tim所提出的那四個原則。

在這裏插入圖片描述

所以,專家系統、語義網(Semantic Web)、鏈接數據Linked Data 都和知識圖譜有着千絲萬縷的關係,可以說它們是知識圖譜的前身。

2. 知識圖譜類型

根據知識的主客觀性,可以把知識分爲事實性(或客觀性)知識和主觀性知識。根據知識的變化性質,知識可以分爲靜態知識和動態知識。比如,美國總統這個知識是有時間限定的,不同時間美國總統是不同的。另外,更爲常見的是將知識分爲領域知識、百科知識、場景知識、語言知識和常識知識等。領域知識,如法律領域、金融領域,是指特定領域內的知識。百科知識則是指涵蓋各行各業的通用型知識,例如:人物、機構、地點等。場景知識是指在某個特定場景下或者需要完成某項任務所需要的知識,例如:在訂機票或者買火車票中需要提供的信息等。語言知識指的是語言層面的知識,例如:Microsoft 的縮寫是 MS,減肥和瘦身是同義詞等。常識知識是指大家公認的一些知識,比如,狗有4條腿,鳥會飛,魚在水裏遊等。常識也是AI中的一大難點,其實目前對於常識的邊界、常識如何表示等都在研究中,並無定論。

3 典型知識圖譜項目

互聯網的發展爲知識工程提供了新的機遇。在一定程度上,是互聯網的出現幫助突破了傳統知識工程在知識獲取方面的瓶頸。從1998年Tim Berners Lee提出語義網至今,涌現出大量以互聯網資源爲基礎的新一代知識庫。這類知識庫的構建方法可以分爲三類:互聯網衆包、專家協作和互聯網挖掘。

3.1 英文知識庫

常見的英文知識庫如下圖所示:
在這裏插入圖片描述

偏向於schema的Schema.org
偏向於語言學的WordNet(主要用以英語的詞義消歧)
偏向於概念層面的ConceptNet
常識知識庫:Web Child、Cyc
領域知識庫:HerbNet(中草藥),linked life data(生命科學領域),
GeoData(地質學領域LinkedGeoData.org)
單語言或者多語言的百科數據:YaGo,XLORE,DBpedia,Freebase,Zhishi.me,CN-DBpedia,Wikidata,PKUBase

3.1.1 Cyc

Cyc是一個通用的常識庫,主要由人工構建。Cyc 的主要特點是基於形式化的知識表示方法來刻畫知識。 Cyc不僅包括知識,而且提供了非常多的推理引擎,支持演繹推理和歸納推理。但過於形式化也導致知識庫的擴展性和應用的靈活性不夠。目前Cyc知識庫涉及50萬條概念的500萬條常識知識。OpenCyc是其開放出來免費供大衆使用的部分知識,包括24萬條概念的約240萬條常識知識。

3.1.2 WordNet

WordNet 是最著名的詞典知識庫,主要用於詞義消歧。WordNet主要定義了名詞、動詞、形容詞和副詞之間的語義關係。例如名詞之間的上下位關係(如:“貓科動物”是“貓”的上位詞),動詞之間的蘊含關係(如:“打鼾”蘊含着“睡眠”)等。WordNet3.0已經包含超過15萬個詞和20萬個語義關係。

3.1.3 ConceptNet

ConceptNet是一個開放的、多語言的知識庫。ConceptNet主要綜合了專家構建、NLP抽取、遊戲衆包、外部開放數據導入等各種技術手段來構建。ConceptNet5版本已經包含有2800萬關係描述。最新版本爲5.7,詳情可以查看官網:5.7版本-2019年發佈。與Cyc相比,ConceptNet採用非形式化,更加貼近自然語言的描述,而不像Cyc那樣採用形式化的謂詞邏輯。與鏈接數據Linked Data和谷歌知識圖譜相比,ConceptNet更加側重詞與詞之間的關係。所以,從這點來看,它更接近WordNet。但是又比WordNet包含的關係類型多。

3.1.4 FreeBase

Freebase是一個開放共享的、協同構建的大規模鏈接數據庫。Freebase是由硅谷創業公司MetaWeb於2005年啓動的一個語義網項目。2010年,谷歌收購了Freebase作爲其知識圖譜數據來源之一。Freebase主要採用社區成員協作方式構建。其主要數據來源包括維基百科Wikipedia、世界名人數據庫NNDB、開放音樂數據庫MusicBrainz,以及社區用戶的貢獻等。Freebase基於RDF三元組模型,底層採用圖數據庫進行存儲。Freebase的一個特點是不對頂層本體做非常嚴格的控制,用戶可以創建和編輯類和關係的定義。2016年,谷歌宣佈將Freebase的數據和API服務都遷移至Wikidata,並正式關閉了Freebase。
[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-qUeKyjVK-1573873428080)(leanote://file/getImage?fileId=5bd978e8ab64411f7400437b)]

3.1.5 WikiData:

WikiData的目標是構建一個免費開放、多語言、任何人或機器都可以編輯修改的大規模鏈接知識庫。WikiData由維基百科於2012年啓動,早期得到微軟聯合創始人Paul Allen、Gordon Betty Moore基金會以及Google的聯合資助。WikiData繼承了Wikipedia的衆包協作的機制,但與Wikipedia不同,WikiData支持的是以三元組爲基礎的知識條目(Items)的自由編輯。一個三元組代表一個關於該條目的陳述(Statements)。例如可以給“地球”的條目增加“<地球,地表面積是,五億平方公里>”的三元組陳述。截止2016年,WikiData已經包含超過2470多萬個知識條目。更詳細的內容可以查看WikiData官網
[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-soE9mZeW-1573873428083)(leanote://file/getImage?fileId=5bd978e9ab64411f7400437c)]

3.1.6 DBpedia:

DBpedia是早期的語義網項目。DBpedia意指數據庫版本的Wikipedia,是從Wikipedia中的結構化數據 Infobox 中抽取的知識。DBpedia採用了一個較爲嚴格的本體,包含人、地點、音樂、電影、組織機構、物種、疾病等類定義。此外,DBpedia還與Freebase,OpenCYC、Bio2RDF等多個數據集建立了數據鏈接。DBpedia採用RDF語義數據模型,總共包含30億RDF三元組。更詳細的內容可以查看DBpedia官網

3.1.7 YAGO:

YAGO是由德國馬普研究所研製的鏈接數據庫,主要集成了Wikipedia、WordNet和GeoNames這三個數據來源。YAGO將WordNet的詞彙定義(比如概念名稱的上下位關係)與Wikipedia的分類體系進行融合,使其具有更加豐富的實體分類體系。此外還考慮了時間和空間知識,爲許多知識條目增加時間和空間的屬性描述。目前YAGO包含了1.2億條三元組知識。YAGO是IBM Watson的後端知識庫之一。更多信息可以查看YAGO官網

3.1.8 BabelNet:

類似WordNet的多語言詞典知識庫,其目標是解決WordNet在非英語語種中的數據缺乏問題。採用的方法是將WordNet詞典與Wikipedia(多語言)百科集成。首先建立WordNet中詞典與Wikipedia頁面標題的映射,然後利用Wikipedia中的多語言鏈接,再輔助以機器翻譯技術,來給WordNet增加多種語言的詞彙。BabelNet 3.0目前包括271語言,1400W同義詞組,36.4萬詞語關係和3.8億從Wikipedia中抽取的鏈接關係,總計超過19億RDF三元組。 BabelNet集成了WordNet在詞語關係上的優勢和Wikipedia在多語言語料方面的優勢,構建成功了目前最大規模的多語言詞典知識庫。更多更新的諮詢可以查看BabelNet官網

3.1.9 NELL:

NELL(Never-Ending Language Learner)是卡內基梅隆大學開發的知識庫。NELL主要採用互聯網挖掘的方法從Web自動抽取三元組知識。NELL的基本理念是:給定一個初始的本體(少量類和關係的定義)和少量樣本,讓機器能夠通過自學習的方式不斷的從Web學習和抽取新的知識。目前NELL已經抽取將近300萬條三元組知識。更多信息可以查閱NELL官網

3.1.10 ConceptGraph:

Microsoft ConceptGraph是以概念層次體系爲中心的知識圖譜。與Freebase等知識圖譜不同,ConceptGraph 以概念定義和概念之間的IsA關係爲主。給定一個概念如“Microsoft”,ConceptGraph 返回一組與“微軟”有IsA關係概念組,如:“Company”,“Software Company”,“Largest OS Vender”等。這被稱爲概念化“Conceptualization”。ConceptGraph 可以用於短文本理解和語義消歧中。例如,給定一個短文本 “the engineer is eating the apple”,可以利用ConceptGraph來正確理解其中“apple”的含義是“吃的蘋果”還是“蘋果公司”。微軟發佈的第一個版本包含超過 540 萬的概念,1255 萬的實體,和 8760萬的關係。 ConceptGraph 主要通過從互聯網和網絡日誌中挖掘來構建。更多更新諮詢歡迎查閱ConceptGraph官網

3.2 中文知識庫

OpenKG是中文知識圖譜資源庫,所以是一個社區聯盟。該社區有多箇中文知識圖譜可以免費下載使用。
OpenKG旨在通過建設開放的社區來促進中文知識圖譜數據的開放與互聯,促進中文知識圖譜工具的標準化和技術普及。更多更新的中文知識圖譜可以在OpenKG上獲取

Zhishi.me
Zhishi.me是中文常識知識圖譜。主要通過從開放的百科數據中抽取結構化數據,已融合了百度百科,互動百科以及維基百科中的中文數據。

CN-DBPeidia
CN-DBPeidia:CN-DBpedia是由復旦大學知識工場實驗室研發並維護的大規模通用領域結構化百科。CN-DBpedia主要從中文百科類網站(如百度百科、互動百科、中文維基百科等)的純文本頁面中提取信息,經過濾、融合、推斷等操作後,最終形成高質量的結構化數據,供機器和人使用。CN-DBpedia自2015年12月份發佈以來已經在問答機器人、智能玩具、智慧醫療、智慧軟件等領域產生數億次API調用量。CN-DBpedia提供全套API,並且免費開放使用。大規模商務調用,提供由IBM、華爲支持的專業、穩定服務接口。

當然還有一些其他如東北大學的TechKG、清華大學的SciKG。更多更新知識圖譜數據可以查看openKG上的知識圖譜數據集

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章