賽迪發佈《湖倉一體技術研究報告》,巨杉數據庫入選國內企業典型代表

近日,賽迪顧問正式發佈了國內首份《湖倉一體技術研究報告》,報告針對湖倉一體技術的發展背景與現狀進行了闡述,並對湖倉一體技術的應用案例及發展前景做出深入分析。基於湖倉一體架構而打造的巨杉數據庫,憑藉其在金融領域的豐富應用案例,作爲國內數據庫企業的典型代表廠商入選。

 

伴隨着5G、大數據、人工智能、物聯網等技術的飛速發展,各行各業的業務場景日益複雜,數據呈現出大規模、多樣性的特點,特別是非結構化數據呈現出爆發式的增長態勢。企業對數據庫技術的需求不再侷限於結構化的OLTP數據交易,而是需要進一步擴展到對多樣化數據進行實時處理的場景。傳統的數據湖在事務一致性及實時處理方面有所欠缺,而數據倉庫也無法應對高併發、多數據類型的處理,因此,支持事務一致性、提供高併發實時處理及分析能力的湖倉一體架構應運而生。湖倉一體架構在成本、靈活性、統一數據存儲、多元數據分析等多方面具備優勢,正逐步轉化爲下一代數據管理系統的核心競爭力。

 

湖倉一體是一種新型的開放式架構,打通了數據倉庫和數據湖,將數據倉庫的高性能及管理能力與數據湖的靈活性融合了起來,底層支持多種數據類型並存,能實現數據間的相互共享,上層可以通過統一封裝的接口進行訪問,可同時支持實時查詢和分析,爲企業進行數據治理帶來了更多的便利性。湖倉一體可在數據入湖後原地進行數據處理與分析,能有效避免數據冗餘及流動導致的算力、網絡及成本開銷,可以作爲超大型ODS存儲貼源數據,實現全量數據的實時處理。

 

 

湖倉一體架構在數據管理中主要具有以下幾大關鍵特徵:

 

一是支持分析多種類型數據。湖倉一體架構可爲多應用程序提供數據的入庫、轉換、分析和訪問。數據類型包括結構化與非結構化類型,如文本、圖像、視頻、音頻等,以及半結構化數據,如JSON等。

 

二是數據可治理,避免產生數據沼澤。湖倉一體架構可以支持各類數據模型的實現和轉變,支持DW模式架構,例如星型模型、雪花模型等,可保證數據的完整性,同時具有健全的治理和審計機制,能夠避免數據沼澤現象的出現。

 

三是事務支持。在企業中,數據庫往往要爲業務系統提供併發的數據讀取和寫入。湖倉一體架構對事務ACID的支持,可確保併發訪問,尤其是SQL訪問模式下的數據一致性、正確性。

 

四是BI支持。湖倉一體支持直接在源數據上使用BI工具,這樣可以提高分析效率,降低數據延時。另外,相比於在數據湖和數據倉庫中分別操作兩個副本的方式,湖倉一體更具成本優勢。

 

五是存算分離。湖倉一體採用存算分離架構,可使系統能夠擴展到更大規模的併發能力和數據容量,能滿足新時代對於分佈式數據架構的要求。

 

六是開放性。湖倉一體採用開放、標準化的存儲格式(例如行存、列存、塊存),能提供豐富的API支持。因此,各種工具和引擎(包括機器學習和Python/R庫)可以高效地對數據進行直接訪問。

 

從落地性來看,湖倉一體技術架構落地目前有三種方式:

 

第一個融合方向是基於Hadoop體系的數據湖向數據倉庫能力擴展,湖中建倉,從數據湖進化到湖倉一體。湖倉一體結合了數據湖和數據倉庫特點,直接在用於數據湖的低成本存儲上實現與數據倉庫中類似的數據結構和數據管理功能。目前主要有Netflix等開源企業在探索此技術路線。

 

第二個是基於自身雲平臺或第三方對象存儲(如OSS、S3、Ceph等),基於Hadoop或自研技術進行湖倉一體能力的搭建。探索此技術路線的通常是各大雲廠商,如AWS、阿里雲、華爲雲等。

 

第三個融合方向是以數據庫技術爲基礎,自研分佈式平臺,從調度、計算到存儲不依賴第三方平臺,形成可以靈活在公有云、私有云、裸金屬等場景獨立部署使用的能力。技術方向上更注重於實時高併發場景及非結構化數據數據治理,並逐步向更廣泛的分析場景發展,主要廠商以Snowflakes、Databricks、巨杉數據庫等爲代表。

 

三個技術方向均是廠商依託自身技術優勢進行的架構融合,均有自身優劣勢及技術特性,能夠滿足不同場景下的客戶需求。

 

 

同時,本報告指出了湖倉一體架構未來的發展趨勢:一是隨着企業對海量大數據的實時處理需求越來越迫切,湖倉一體架構將成爲越來越多用戶的主流選擇,助力各行各業數字化轉型;二是以人爲軸的數據開發和優化,將越來越難以滿足企業實際需求,屆時人工智能技術將介入數據庫的自動調優、自動整理過程,助力提升湖倉一體架構的智能化。

 

在報告的最後,賽迪顧問對用戶和廠商提出了一些發展建議。對用戶而言,要重視專業化服務能力和成功案例的可移植性,選擇適合自身情況的數據管理產品。對廠商而言,要重視研發投入,加快產品與新興技術融合,同時不斷提高專業化服務水平,重視實施與交付能力的提升。

 

關於 巨杉數據庫

 

在此次報告中,巨杉數據庫作爲湖倉一體典型廠商入選。基於湖倉一體的架構特性,巨杉數據庫可構建數據基礎設施平臺,整合結構化、半結構化、非結構化數據的統一存儲與管理,爲面向全量數據業務提供:SQL、NoSQL、Object等多種接口。此外,通過特有的跨引擎事務能力,可以有效簡化多團隊開發流程中對不同引擎、不同結構的數據管理,打通ACID事務支持,提升業務開發、數據處理、運維管理能力,釋放全量數據價值,提升企業數據處理的“人效”及“能效”。目前,巨杉數據庫已經在超過100家金融銀行客戶規模化上線使用,全面覆蓋國有銀行、股份制銀行、省級農信、城商行、保險、證券等金融客戶。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章