三種知識圖譜
知識圖譜本質上是一種語義網絡。其結點代表實體(entity)或者概念(concept),邊代表實體/概念之間的各種語義關係。Knowledge Graph , Freebase , Wikidata 是目前最常見的三種知識圖譜。
Knowledge Graph
Knowledge Graph 是Google的一個知識庫,其使用語義檢索從多種來源收集信息,以提高Google搜索的質量。Knowledge Graph 2012年加入Google搜索,2012年5月16日正式發佈,首先可在美國使用。Knowledge Graph 除了顯示其他網站的鏈接列表,還提供結構化及詳細的關於主題的信息。其目標是,用戶將能夠使用此功能提供的信息來解決他們查詢的問題,而不必導航到其他網站並自己彙總信息。
1.搜索api
Knowledge Graph 提供了查詢api,官方文檔見API Reference。
可以直接使用HTTP GET進行查詢,如使用以下url查詢與 Fudan 關的實體:
https://kgsearch.googleapis.com/v1/entities:search?query=Fudan&key=
注意url中的key字段爲開發者賬號申請的api調用key。
2.搜索結果
用戶可以指定返回的查詢結果格式,json格式的內容如下:
{
@context:
{
@vocab: "http://schema.org/",
goog: "http://schema.googleapis.com/",
EntitySearchResult: "goog:EntitySearchResult",
detailedDescription: "goog:detailedDescription",
resultScore: "goog:resultScore",
kg: "http://g.co/kg"
},
@type: "ItemList",
itemListElement:
[
{
@type: "EntitySearchResult",
result:
{
@id: "kg:/m/0jktd",
name: "Fudan University",
@type:
[
"CollegeOrUniversity",
"Organization",
"EducationalOrganization",
"Place",
"Thing"
],
description: "University in Shanghai, China",
image:
{
contentUrl: "http://t3.gstatic.com/images?q=tbn:ANd9GcRL6bWR-Z8BDYVYytbMaXJiTa8l690RY2pwpAbj7EvIlRgrDb97",
url: "https://commons.wikimedia.org/wiki/File:Fudan-logo.jpg",
license: "http://creativecommons.org/licenses/by-sa/3.0"
},
detailedDescription:
{
articleBody: "Fudan University, located in Shanghai, China, is one of the most prestigious and selective universities in China, and is a member in the C9 League and Universitas 21. ",
url: "http://en.wikipedia.org/wiki/Fudan_University",
license: "https://en.wikipedia.org/wiki/Wikipedia:Text_of_Creative_Commons_Attribution-ShareAlike_3.0_Unported_License"
},
url: "http://www.fudan.edu.cn/"
},
resultScore: 40.484966
}
]
}
其中 @id 字段爲對應的entity在 Freebase 中的mid。
3.api特點
優點:
- 查詢簡單便捷
- 查詢結果可以指定以json等格式返回
- entity中的大部分信息是直接顯示在Google相關搜索的右側欄wiki中的,質量較高並且相對比較豐富
- 每個賬戶的免費額度爲每天100,000次查詢,能夠滿足大部分使用場景
缺點:
- 不能直接得到與其相關聯的其他entity信息
Freebase
Freebase 是一個由元數據組成的大型合作知識庫,內容主要來自其社區成員的貢獻。它整合了許多網上的資源,包括部分私人wiki站點中的內容。Freebase 致力於打造一個允許全球所有人(和機器)快捷訪問的資源庫。它由美國軟件公司Metaweb開發並於2007年3月公開運營。2010年7月16日被谷歌收購。 2014年12月16日,Google宣佈將在六個月後關閉 Freebase ,並將全部數據遷移至 Wikidata 。
1.搜索api
官方文檔見API Reference。
可以直接使用HTTP GET進行查詢,如使用以下url查詢與 Fudan 相關的實體:
https://www.googleapis.com/freebase/v1/search?query=fudan&format=entity
2.搜索結果
典型的搜索結果類似如下:
{
"status":"200 OK",
"result":
[
{
"mid":"/m/0jktd",
"id":"/en/fudan_university",
"name":"Fudan University",
"under":"Shanghai",
"lang":"en","score":39.771729
},
],
"cursor":20,
"cost":4,
"hits":543
}
3.api特點
優點:
- 查詢簡單便捷
- 查詢結果以json格式返回
- 每個賬戶的免費額度爲每天100,000次查詢,能夠滿足大部分使用場景
缺點:
- 不能直接得到與其相關聯的其他實體信息
- 實體中能直接利用的信息較少
4.查看實體詳細信息
雖然 Freebase 的實體查詢結果中能直接利用的信息較少,不過可以通過Freebase提供的網頁查看相應實體的詳細信息,只需要在首頁地址https://www.freebase.com後添加上對應的mid就能直接反問html格式的詳細信息頁面,如 Fudan University 的mid爲m/0jktd,則其詳細信息頁面的url爲https://www.freebase.com/m/0jktd。這使得利用網絡爬蟲獲取實體的詳細信息成爲可能。
5.Data Dumps
另外 Freebase 還提供完整的數據庫下載,詳情參考Data Dumps。dump的數據爲元組的形式,實際利用起來具有一定的挑戰性。
6.停止開放
需要注意的是,Freebase 不久將停止開放,詳情參考ShutDown。
Wikidata
Wikidata 是一個可協同編輯的知識庫,是繼2006年的維基學院之後,第一個新的維基媒體基金會項目。這一項目與維基共享資源的工作方式類似,將爲其他維基計劃及各語種維基百科中的信息框、列表及跨語言鏈接等提供統一存放的數據,該項目在2012年10月30日投入使用。
1.搜索api
官方文檔見API Reference。
可以直接使用HTTP GET進行查詢,如使用以下url查詢與 Fudan 關的實體:
https://www.wikidata.org/w/api.php?action=query&list=search&srsearch=Fudan&format=json
2.搜索結果
典型的搜索結果類似如下:
{
"batchcomplete":"",
"continue":
{
"sroffset":10,
"continue":"-||"
},
"query":
{
"searchinfo":
{
"totalhits":17
},
"search":
[
{
"ns":0,
"title":"Q495015",
"snippet":"universit\u00e9 <span class=\sity Universit\u00e0 >Fudan</span>-universiteit",
"size":17783,
"wordcount":253,
"timestamp":"2016-01-06T21:09:34Z"
},
]
}
}
3.api特點
優點:
- 查詢簡單便捷
- 查詢結果可以設定以json格式返回
- 沒有查詢額度限制
缺點:
- 不能直接得到與其相關聯的其他實體信息
- 實體中能直接利用的信息較少
4.獲取entity詳細信息
除了提供實體查詢接口,Wikidata 還提供了專門的api用於通過實體的id獲取實體的詳細信息,這些信息包含與其相關聯的其他實體信息。
此api可以將結果以多種格式返回,例如以HTTP GET的方式獲取id爲Q495015的實體的詳細信息並指定以json格式返回的url爲:
https://www.wikidata.org/wiki/Special:EntityData/Q495015.json
另外還可以直接通過html方式展示實體詳細信息,例如:
https://www.wikidata.org/wiki/Q495015
5.Database Download
Wikidata 提供完整的數據庫下載,詳見Database Download
對比
項目 | Knowledge Graph | Wikidata | Freebase |
---|---|---|---|
額度 | 10萬/天 | 不限 | 10萬/天 |
查詢結果中能直接利用的信息 | 多,大部分信息都會放在Google相關搜索的右側wiki欄 | 很少(只有name和id) | 很少 |
數據獲取 | 在線api | 在線api + data dump | 在線api + data dump |
獲取關聯實體 | 查詢能得到實體在freebase中的mid,通過此mid獲取相關實體 | 可以直接查詢實體詳細信息得到關聯實體 | 通過dump的數據離線分析(複雜)或者爬蟲分析實體詳情頁面 |
維護 | Wikipedia | 不久將被shut down |