圖分析引擎技術方案調研

在這裏插入圖片描述

圖分析引擎-技術調研報告

先上調研結論:
金融領域相關圖分析圖查詢引擎的建設,建議採用neo4j爲內核進行研發圖譜集羣,可以部署到雲平臺自主運維或者選擇服務廠商完全託管(建議自主運維);內核的選擇,建議優先選擇neo4j企業版的開源分支ongdb,其次是企業版。自主運維+使用開源分支,剩下必須要付出的成本只是本地服務器或者雲服務器而已。

一、問題總結

1、AWS託管圖數據庫的運維工作量是否比Neo4j集羣大幅降低?

運維工作量主要集中在集羣的備份、恢復、維護、升級上,採用雲託管的方式,確實會減少工作量。
neo4j也有對應的雲提供商:
【GrapheneDB - 世界上第一個完全管理 Neo4j 圖數據庫】https://www.graphenedb.com/
【GraphStory - Neo4j 企業雲提供商】https://www.graphstory.com/
另外借助neo4j的世界級強大社區支持力度,自主運維完全是可控的。

2、Neptune的三度及以上的查詢效率比Neo4j如何?

neptune具有數量級的差距,neo4j性能更優。
性能詳細信息請看附件:Neptune_vs_Neo4j-2020.pdf

3、AWS Neptune的總費用和企業版Neo4j比如何?

neptune按照時長收費。neo4j需要根據應用規模來確定收費方案。
企業版的價格主要取決對配置的要求。以下價格僅供參考。
套餐(服務器 x 內核) 價格(萬美元/年)
3 x 8. 19.9
3 x 4. 9.9
2 x 4. 6.8
1 x 4. 3.6
企業版主要優勢
1、集羣(水平伸縮/高可用)
2、安全性
3、熱備
4、診斷及調優工具
5、管控(對屬性、節點等設置規則)
6、垂直伸縮(超過4核)
7、世界級支持等等
費用更多信息請看附件:Neptune_vs_Neo4j-2020.pdf

4、如果選用Neptune,從Neo4j向Neptune遷移是否有現有的解決方案?

遷移方案需要藉助官方文檔結合實際情況自行設計。

二、neo4j優勢對比

1、數據模型對比

圖數據存儲的三種模型:超圖、屬性圖、RDF。
neo4j採用屬性圖存儲,對於在線應用場景,屬性圖在實時遍歷數據關聯關係時體現出了無以倫比的優勢。超圖非常適合元意圖和RDF三元組的離線分析。

2、數據一致性模型 - ACID vs BASE

Neo4j使用ACID一致性模型來確保數據的安全性和一致性存儲。
BASE模型數據存儲更重視系統可用性(系統的可伸縮性非常重要),但它不能保證數據副本的寫一致性。總的來說,BASE一致性模型提供了比ACID更弱的特性:數據在某個時刻將保持一致,無論是在讀取時(如Riak),還是始終保持一致,但僅限於某些已處理的過去快照(如Datomic)。

3、neo4j原生圖存儲的天然優勢

Neo4J所使用的後端存儲是專門爲Neo4J這種圖數據庫定製和優化的,理論上說能更有利於發揮圖數據庫的性能。而非原生圖存儲指的是圖數據庫,比如JanusGraph使用通用的NoSQL數據庫比如HBase來保存序列化後的圖數據。
原生圖處理指的是利用了免索引鄰接的圖數據庫。免索引鄰接是指通過邊關聯的2個節點,其彼此指向是物理的,也就是通過邊訪問一個節點時,該邊保存的就是目標節點在磁盤上的物理地址,這樣就需要通過索引去找到目標節點,如果邊很多的時候,對性能提升很有幫助。

4、社區活躍性與支持力度

neo4j國內外均有較爲活躍的技術社區,發展穩定而且快速。可以得到世界級支持。neo4j上下游發展趨勢類似elasticsearch的發展,不過elasticsearch是完全開源的。neptune還未形成成熟的技術交流社羣。
neo4j中文社區:http://neo4j.com.cn/
neo4j官方社區:https://community.neo4j.com/ http://neo4j.com/

5、圖查詢語言

neo4j模式查詢語言cypher的行業標準化認定,標準化的認定有助於推動圖數據庫的快速發展。
https://neo4j.com/press-releases/query-language-graph-databases-international-standard/
經過數年的努力和合作,2019年9月17日,ISO組織正式將基於Cypher的GQL(Graph Query Language)吸納爲數據庫查詢語言標準的一部分。正如SQL的標準化帶來了關係型數據庫的蓬勃發展一樣,GQL也將非關係型數據的查詢、處理提高到新的層面、帶來巨大的應用前景。GQL工作組包含了來自Neo4j、Oracle、SAP等主要數據庫和應用廠商,以及來自中國、瑞典、英國、美國等國的專家。

6、客戶羣體分析

neo4j的客戶包含很多頭部企業Adobe、ebay、airbnb、Microsoft、IBM、volvo、NASA、HP等等,來自多種行業包括金融、安全、互聯網、媒體社交、硬件、生命科學、醫療等等行業。
Neptune官網客戶列出這12個:
https://amazonaws-china.com/cn/neptune/
在這裏插入圖片描述
Neo4j官網列出的客戶128個:
https://neo4j.com/customers/
在這裏插入圖片描述
金融業務相關的客戶:
在這裏插入圖片描述

7、基礎數據規模評估

在進行技術選型或者付費方案選擇的之前必須先對行業基礎數據和業務應用場景做全面的評估。
\color{#FF3030}{數據}: 基本信息、新聞證券、工商數據、股權關係、供應商關係、創投類、投資人等等基礎數據做全面的評估。
\color{#FF3030}{場景}: 風險分析、欺詐、新聞過濾分析等等應用場景做評估。
評估可以參考金融類企業的應用案例。

\color{#FF3030}{整體評估有助於技術架構的選擇。}
可以根據數據規模情況,將不同類型、不同場景下的基礎圖譜,構建存儲在不同集羣中,分散數據壓力提升系統\color{#FF3030}{擴展能力};對於圖譜相關的一些詳細屬性信息可以存儲到elasticsearch做複雜檢索,同時可以用elasticsearch做爲圖檢索的入口,有助於緩解圖引擎節點的\color{#FF3030}{存儲壓力},讓圖引擎聚焦在圖分析和圖存儲能力上面。另外時序類相關數據建議使用elasticsearch分析。

8、數據規模

neo4j社區版限制:節點-320億,關係-320億,屬性-640億。
neo4j企業版沒有限制。
neotune官網公佈數據量規模在10億左右,與neo4j差距巨大。

9、付費還是開源

在完成基礎調研的前提下,做出技術方案選型。綜合考慮成本和技術實現難易程度,進行選擇。
\color{#FF3030}{技術選型}:neo4j企業版>ONgDB>neo4j社區版
ONgDB\color{#FF3030}{ONgDB}:是neo4j-3.5企業版代碼庫完全閉源之後形成的一個分支,目前正在快速發展,性能與社區版有數量級差距,而且完全開源。亞馬遜雲提供商目前也有意將此項目添加到自己的雲平臺。
【neo4j開源代碼庫】https://github.com/neo4j-contrib/
【ONgDB開源代碼庫】https://github.com/graphfoundation
【ONgDB源碼】https://github.com/graphfoundation/ongdb
【ONgDB網站】https://www.graphfoundation.org/
【ONgDB的雲服務】https://hub.docker.com/r/graphfoundation/ongdb
https://github.com/graphfoundation/ongdb/issues/10
在這裏插入圖片描述
ONgDB項目是在neo4j閉源其商業版代碼庫之前流出,現在存在法律糾紛(neo4j勝算較小)。另外ONgDB的發起組織也在快速更新。目前最新是3.6.0版本,與企業版neo4j-3.6.0版本功能基本一致。目前企業版neo4j已經更新到4.0版本,最大的特點是支持分庫操作,ONgDB還不支持分庫操作。

(1)、與ongdb的技術專家交流的郵件截圖:

在這裏插入圖片描述
在這裏插入圖片描述https://cdn.graphfoundation.org/content/legal/neo4j-vs-purethink/CASE+NO.+5-19-CV-06226-EJD+OPPOSITION+AND+RESPONSE+TO+MOTION+TO+STRIKE.pdf
在這裏插入圖片描述

(2)、neo4j技術專家對於ongdb項目的看法:)

在這裏插入圖片描述

(3)、ongdb內核已經被很多人用來建設數據中心,社區非常活躍

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

10、數據庫世界排名

https://db-engines.com/en/ranking neo4j第21位,neptune第119位。
在這裏插入圖片描述
在這裏插入圖片描述

11、附件資料:技術指標對比與法律文書

【1】技術指標對比:neo4j與neptune指標對比。
【2】法律文書:neo4j與ONgDB的官司。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章