三種知識圖譜

三種知識圖譜


知識圖譜本質上是一種語義網絡。其結點代表實體(entity)或者概念(concept),邊代表實體/概念之間的各種語義關係。Knowledge Graph , Freebase , Wikidata 是目前最常見的三種知識圖譜。

Knowledge Graph

Knowledge Graph 是Google的一個知識庫,其使用語義檢索從多種來源收集信息,以提高Google搜索的質量。Knowledge Graph 2012年加入Google搜索,2012年5月16日正式發佈,首先可在美國使用。Knowledge Graph 除了顯示其他網站的鏈接列表,還提供結構化及詳細的關於主題的信息。其目標是,用戶將能夠使用此功能提供的信息來解決他們查詢的問題,而不必導航到其他網站並自己彙總信息。

1.搜索api

Knowledge Graph 提供了查詢api,官方文檔見API Reference
可以直接使用HTTP GET進行查詢,如使用以下url查詢與 Fudan 關的實體:
https://kgsearch.googleapis.com/v1/entities:search?query=Fudan&key=
注意url中的key字段爲開發者賬號申請的api調用key。

2.搜索結果

用戶可以指定返回的查詢結果格式,json格式的內容如下:

{
    @context:
    {
        @vocab: "http://schema.org/",
        goog: "http://schema.googleapis.com/",
        EntitySearchResult: "goog:EntitySearchResult",
        detailedDescription: "goog:detailedDescription",
        resultScore: "goog:resultScore",
        kg: "http://g.co/kg"
    },
    @type: "ItemList",
    itemListElement:
    [
        {
            @type: "EntitySearchResult",
            result:
            {
                @id: "kg:/m/0jktd",
                name: "Fudan University",
                @type:
                [
                    "CollegeOrUniversity",
                    "Organization",
                    "EducationalOrganization",
                    "Place",
                    "Thing"
                ],
                description: "University in Shanghai, China",
                image:
                {
                    contentUrl: "http://t3.gstatic.com/images?q=tbn:ANd9GcRL6bWR-Z8BDYVYytbMaXJiTa8l690RY2pwpAbj7EvIlRgrDb97",
                    url: "https://commons.wikimedia.org/wiki/File:Fudan-logo.jpg",
                    license: "http://creativecommons.org/licenses/by-sa/3.0"
                },
                detailedDescription:
                {
                    articleBody: "Fudan University, located in Shanghai, China, is one of the most prestigious and selective universities in China, and is a member in the C9 League and Universitas 21. ",
                    url: "http://en.wikipedia.org/wiki/Fudan_University",
                    license: "https://en.wikipedia.org/wiki/Wikipedia:Text_of_Creative_Commons_Attribution-ShareAlike_3.0_Unported_License"
                },
                url: "http://www.fudan.edu.cn/"
            },
            resultScore: 40.484966
        }
    ]
}

其中 @id 字段爲對應的entity在 Freebase 中的mid。

3.api特點

優點:

  • 查詢簡單便捷
  • 查詢結果可以指定以json等格式返回
  • entity中的大部分信息是直接顯示在Google相關搜索的右側欄wiki中的,質量較高並且相對比較豐富
  • 每個賬戶的免費額度爲每天100,000次查詢,能夠滿足大部分使用場景

缺點:

  • 不能直接得到與其相關聯的其他entity信息

Freebase

Freebase 是一個由元數據組成的大型合作知識庫,內容主要來自其社區成員的貢獻。它整合了許多網上的資源,包括部分私人wiki站點中的內容。Freebase 致力於打造一個允許全球所有人(和機器)快捷訪問的資源庫。它由美國軟件公司Metaweb開發並於2007年3月公開運營。2010年7月16日被谷歌收購。 2014年12月16日,Google宣佈將在六個月後關閉 Freebase ,並將全部數據遷移至 Wikidata

1.搜索api

官方文檔見API Reference
可以直接使用HTTP GET進行查詢,如使用以下url查詢與 Fudan 相關的實體:
https://www.googleapis.com/freebase/v1/search?query=fudan&format=entity

2.搜索結果

典型的搜索結果類似如下:

{
    "status":"200 OK",
    "result":
    [
        {
            "mid":"/m/0jktd",
            "id":"/en/fudan_university",
            "name":"Fudan University",
            "under":"Shanghai",
            "lang":"en","score":39.771729
        },
    ],
    "cursor":20,
    "cost":4,
    "hits":543
}

3.api特點

優點:

  • 查詢簡單便捷
  • 查詢結果以json格式返回
  • 每個賬戶的免費額度爲每天100,000次查詢,能夠滿足大部分使用場景

缺點:

  • 不能直接得到與其相關聯的其他實體信息
  • 實體中能直接利用的信息較少

4.查看實體詳細信息

雖然 Freebase 的實體查詢結果中能直接利用的信息較少,不過可以通過Freebase提供的網頁查看相應實體的詳細信息,只需要在首頁地址https://www.freebase.com後添加上對應的mid就能直接反問html格式的詳細信息頁面,如 Fudan University 的mid爲m/0jktd,則其詳細信息頁面的url爲https://www.freebase.com/m/0jktd。這使得利用網絡爬蟲獲取實體的詳細信息成爲可能。

5.Data Dumps

另外 Freebase 還提供完整的數據庫下載,詳情參考Data Dumps。dump的數據爲元組的形式,實際利用起來具有一定的挑戰性。

6.停止開放

需要注意的是,Freebase 不久將停止開放,詳情參考ShutDown

Wikidata

Wikidata 是一個可協同編輯的知識庫,是繼2006年的維基學院之後,第一個新的維基媒體基金會項目。這一項目與維基共享資源的工作方式類似,將爲其他維基計劃及各語種維基百科中的信息框、列表及跨語言鏈接等提供統一存放的數據,該項目在2012年10月30日投入使用。

1.搜索api

官方文檔見API Reference
可以直接使用HTTP GET進行查詢,如使用以下url查詢與 Fudan 關的實體:
https://www.wikidata.org/w/api.php?action=query&list=search&srsearch=Fudan&format=json

2.搜索結果

典型的搜索結果類似如下:

{
    "batchcomplete":"",
    "continue":
    {
        "sroffset":10,
        "continue":"-||"
    },
    "query":
    {
        "searchinfo":
        {
            "totalhits":17
        },
        "search":
        [
            {
                "ns":0,
                "title":"Q495015",
                "snippet":"universit\u00e9 <span class=\sity Universit\u00e0 >Fudan</span>-universiteit",
                "size":17783,
                "wordcount":253,
                "timestamp":"2016-01-06T21:09:34Z"
            },
        ]
    }
}

3.api特點

優點:

  • 查詢簡單便捷
  • 查詢結果可以設定以json格式返回
  • 沒有查詢額度限制

缺點:

  • 不能直接得到與其相關聯的其他實體信息
  • 實體中能直接利用的信息較少

4.獲取entity詳細信息

除了提供實體查詢接口,Wikidata 還提供了專門的api用於通過實體的id獲取實體的詳細信息,這些信息包含與其相關聯的其他實體信息。
此api可以將結果以多種格式返回,例如以HTTP GET的方式獲取id爲Q495015的實體的詳細信息並指定以json格式返回的url爲:
https://www.wikidata.org/wiki/Special:EntityData/Q495015.json
另外還可以直接通過html方式展示實體詳細信息,例如:
https://www.wikidata.org/wiki/Q495015

5.Database Download

Wikidata 提供完整的數據庫下載,詳見Database Download

對比

項目 Knowledge Graph Wikidata Freebase
額度 10萬/天 不限 10萬/天
查詢結果中能直接利用的信息 多,大部分信息都會放在Google相關搜索的右側wiki欄 很少(只有name和id) 很少
數據獲取 在線api 在線api + data dump 在線api + data dump
獲取關聯實體 查詢能得到實體在freebase中的mid,通過此mid獲取相關實體 可以直接查詢實體詳細信息得到關聯實體 通過dump的數據離線分析(複雜)或者爬蟲分析實體詳情頁面
維護 Google Wikipedia 不久將被shut down
發佈了143 篇原創文章 · 獲贊 176 · 訪問量 385萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章