一朝爆發?解讀知識圖譜和圖數據庫的2018

知識圖譜最初是由谷歌提出的,用來優化搜索引擎的技術。而本質上, 知識圖譜旨在描述真實世界中存在的各種實體或概念及其關係,其構成一張巨大的語義網絡圖,節點表示實體或概念,邊則由屬性或關係構成。

隨着人工智能技術的發展和應用,知識圖譜在學術界和工業界都得到了重視,如今在智能搜索、智能問答、個性化推薦、內容分發等領域均有應用。那麼,爲什麼知識圖譜時隔多年纔有突然“爆火”?目前知識圖譜和圖數據庫的發展如何?2019年知識圖譜和圖數據庫又會有哪些新趨勢呢?

爲什麼我們現在才需要知識圖譜?

事實上,知識圖譜早在2012年就已經提出,但是直到2017年,我們纔看到一些應用。爲什麼知識圖譜需要這麼長的醞釀時間呢?這是由多種因素造成的:

  • 感知複雜性:雖然RDF在概念上很簡單,但是在學術界常常評價"RDF產生的文件並不接地氣,而且很難達成統一的意見。”
  • 需要更改後端:如果要實現知識圖譜可視化,那麼就必須採用一種新的後端形式或者是圖數據庫,而這對於企業、用戶來說就意味着風險、不確定性、數據複製和ETL等工作。
  • 軟件不成熟:目前市面上存在的圖數據庫都有很大的侷限性,要麼不能分佈式,要麼使用繁瑣,要麼兩者兼有。
  • 目光超前或者目光短淺:企業或者用戶並沒有找準知識圖譜的應用場景,有些人試圖在一些沒有必要應用知識圖譜的場景中應用,結果不盡如人意,導致知識圖譜的應用失去原動力;而另一些人則相反,他們完全忽略了知識圖譜的作用,堅定的認爲任何特定的業務級問題都可以通過使用傳統技術和特定的API得到解決。

隨着軟件的逐漸成熟和視覺技術的發展以及企業和用戶對應用場景的探索,知識圖譜才漸漸找到了適合自己的發展之路。

2018年知識圖譜和圖數據庫市場亮點滿滿

前文我們提到了知識圖譜現在在多個場景中都有應用,主要集中在社交網路、金融保險、零售廣告、傳媒通信等行業。國內的知識圖譜玩家大致可以分爲兩大部分,一部分是互聯網巨頭入局,例如現在已發佈的阿里商品知識圖譜、騰訊雲“星圖”、百度“知心”等,另一部分是創業公司,如果百分點、明略數據、文因互聯等。

爲了避免與BAT等大廠直接交鋒,國內的知識圖譜創業企業往往是以垂直領域作爲切入點,一部分企業專注於單一垂直領域,如聚焦金融領域的文因互聯、智言科技等,還有一部分企業是涉足多個垂直領域,例如主攻公安、金融、工業等領域的明略數據。

如果我們把目光放到知識圖譜的國際市場,那麼也有亮點可挖掘:

1)巨頭玩家入局:Amazon Neptune和Microsoft Cosmos

2018年5月,亞馬遜正式宣佈圖數據庫Amazon Neptune全面上市,同時支持兩種圖形模型(RDF和Gremlin)。雖然,時至今日Amazon Neptune還沒有一些突出的性能數據和使用案例,但是“亞馬遜”這塊金字招牌無疑會給Amazon Neptune在技術和生態方面增色不少,衆多企業和用戶都對Amazon Neptune充滿了信心。

2017年,微軟推出了多模數據庫CosmosDB,並在之後對其進行了一系列的增強,例如支持gremlin和其他訪問API。

2)中堅力量的成長:Stardog和OnToText

Stardog和OnToText都是企業級知識圖譜領域的中堅力量,在2018年這一年中,Stardog通過300萬美元的追加共獲得了900萬美元的A輪融資。Stardog具備高度的靈活性和可重用性,可以統一所有企業數據,包括各種類型的數據庫和數據源。

2018年Ontotext發佈了GraphDB 8.7版本,歸功於新插件的應用,該版本中增加了對知識圖譜概念匹配的支持,在性能方面實現了在單個數據庫實例中託管存儲庫之間高效的查詢聯合。

3)新玩家的迅速崛起:Tiger Graph和Dgraph

2017年底,Tiger Graph宣佈完成了3000萬美元的融資。2018年Tiger Graph推出了雲託管服務,並且使用了一種新的查詢語言 GSQL,GSQL 將 SQL 風格的查詢語法與 Cypher 風格的圖導航語法結合在一起,並加入了過程編程和用戶自定義函數。

Dgraph是一個完全分佈式的圖數據庫,其創造者與Freebase(現爲谷歌知識圖譜的核心)的創造者爲同一人,目前遵循Apache 2.0開源協議。

4)開源多模DB的成長與智能化:Arangodb和OrientDB

ArangoDB3.4版本令人印象深刻,其在本地集成了完整的信息檢索引擎和地理查詢功能,以補充其本地的關係和圖形功能。目前,Arango遵循Apache2.0開源協議,同時也附帶了一種類似SQL的查詢語言。而OrientDB是SAP的一部分,其發佈的3.0版本,主要關注性能改進和Tinkerpop3支持。

5)著名知識圖譜的發佈:refinitiv和bloomberg)

2018年,Bloomberg宣佈提供接入企業用戶,企業服務以傳統CSV提供,同時也支持使用基於RDF的格式。Refinitiv是一個金融實體及其關係的策劃知識圖,擴展了公共可用的許可知識圖。

image

6)發展趨勢:知識圖譜興趣滿滿,而圖數據庫意興闌珊

如果整體來看,2018年知識圖譜和圖數據庫都處於上升態勢。
image
谷歌趨勢也證實了DB-Engines的趨勢,知識圖譜在兩年前開始了穩步增長,在過去的12個月中,知識圖譜的熱度增加了34%。

image
不過這種熱度並沒有延續到圖數據庫中,2018年圖數據庫的增長趨勢較爲平緩。

7)知識圖譜的應用和圖數據庫的發展息息相關

從上文中,我們看到知識圖譜和圖數據庫都在上升態勢,二者息息相關。目前企業使用知識圖譜或圖數據庫的主要疑慮就都集中在“複製數據”(也稱爲ETL)或者使用新的後端替換原來的後端。所以,接下來圖數據庫需要大步前進了!

2019年,知識圖譜和圖數據庫還需要繼續加油!

雖然知識圖譜和圖數據庫的市場份額還不夠大,但是它們正處在上升期,技術也在穩步前進中,而且知識圖譜能在以更低的成本和風險在生產中實現收益,所以在2019年中,大家還是要持續關注知識圖譜。

  • 如果您之前應用過“知識圖譜”或者是“圖數據庫”,並且遇到過坑,那麼,2019年您可能需要繼續關注它們,也許您之前遇到的坑都被填平了;
  • RDF的優勢在於其提供了一個共享圖形的標準,在沒有RDF存儲的情況下,很難使用RDF製作出好的作品;
  • 簡單的屬性圖方法(Neo4j、Tiger Graph以及所有多模DB)更接近於JSON、GRAPHQL,也是大家真正想要的東西。
  • 知識圖譜並不只是由“存儲”構成,如果要是完全替換現有的生產系統也是不太現實的,所以我們可以考慮以下做法:
    • 創建GraphQL API,使企業應用程序能夠以“知識圖譜”的方式使用數據;
    • 通過某種工具直接連接到後端,並查看數據中已有的知識圖譜。

參考鏈接:https://dzone.com/articles/my-list-of-7-great-2018-advancements-in-enterprise

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章