首次公開!賽迪顧問《湖倉一體技術研究報告》深入解讀

十年聚焦,力出一孔。巨杉成立10年以來,深耕自研分佈式數據庫技術,聚焦金融銀行業,緊貼客戶發展需求,從多模數據湖、實時數據湖發展到湖倉一體架構。湖倉一體技術藉助海量、實時、多模的數據處理能力,實現全量數據價值的持續釋放,正成爲企業數字化轉型過程中備受關注的焦點。

 

近日,巨杉數據庫SequoiaDBv5.2產品發佈會成功舉辦。發佈會上,賽迪顧問軟件與信息服務業研究專家出席,並對此前發佈的《湖倉一體技術研究報告》進行了深入解讀。

 

本次解讀分享,結合湖倉一體技術的發展歷程,對現階段業界重點產品,典型案例,未來趨勢等多方面內容進行了剖析,綜合評判了湖倉一體技術的發展階段及未來應用場景。

 

發展歷程

 

從數據管理架構的發展來看,湖倉一體技術的發展可分爲三個階段。第一階段是上世紀80年代開始的“數據倉庫”階段,第二階段是2011年伴隨着大數據發展而產生的“數據湖”技術,第三階段就是近年來開始的數據湖與數據倉庫的融合趨勢,業界稱爲“湖倉一體”。

 

數據管理架構的革新,是在企業需求的推動下進行的,新興技術催生新的市場需求,從而導致數據管理架構相應調整。以湖倉一體爲例,當下企業海量大數據場景下的實時處理,非結構化數據治理等需求,都是推動數據湖與數據倉庫融合的重要動力。

 

 

數據倉庫是決策支持系統(dss)和聯機分析應用數據源的結構化數據環境。數據倉庫產生的背景主要在於傳統交易核心數據庫腦容量不足,擅長事務型工作,但不擅長分析型工作,無法滿足企業對於數據分析的發展需求。

 

從數據倉庫架構圖可以看出,數據倉庫的主要功能,是將企業信息化管理系統中聯機事務處理所積累的大量數據,通過數據倉庫特有的信息存儲架構,系統化分析整理,進而支持如決策支持系統、主管資訊系統的創建,幫助決策者快速有效的從大量數據中分析出有價值的信息,以利於後期決策擬定及對外在環境變化的快速回應,幫助其構建商業智能。

 

 

在大數據時代數據量劇增背景下,催生了數據湖技術。數據湖是一個存儲企業各種各樣原始數據的大型倉庫,可供數據存取、處理、分析以及傳輸,可看作一種大型數據存儲庫和處理引擎。相比於數據倉庫而言,數據湖存儲容量更大,數據類型更爲豐富,增加了對半結構化數據和非結構化數據的支持,同時對所有數據進行集中式存儲。並具有龐大的PB級數據存儲規模以及計算能力,提供多元化數據信息交叉分析,及大容量高速度的數據管道。

 

 

湖倉一體則是一種新型的開放式架構,打通了數據倉庫和數據湖,並融合了兩種架構的優勢。其底層支持多種數據類型並存,且實現數據間的相互共享。上層可以通過統一封裝的接口進行訪問,可同時支持實時查詢和分析。湖倉一體使得數據入湖後可原地進行數據處理加工,避免數據多份冗餘以及流動導致的算力、網絡及成本開銷,可作爲超大型的數據存儲資源池,實現對全量數據的實時處理。

 

 

相比於數據湖,湖倉一體架構的主要功能是增強了實時業務處理以及非結構化數據的治理能力。湖倉一體的優勢主要體現在四個方面,一是具備完善的數據管理能力,二是數據可實現及時追溯,三是支持豐富的計算引擎,四是更高的數據實時性。

 

用戶痛點

 

隨着數字經濟時代的快速發展,獨立構建數據湖與數據倉庫兩套平臺的架構設計,在某些場景已經無法滿足客戶需求,新興技術發展、“數據沼澤”問題及數字化轉型三大痛點,催生了湖倉一體技術的發展。

 

新興技術發展主要指隨着5G、大數據、人工智能、物聯網等技術的飛速發展,數據量呈現出大規模、多樣性的特點,爲應對多變的業務訴求,政企客戶對數據處理分析的實時性和融合性提出了更高的要求。

 

“數據沼澤”則是指隨着企業逐漸發展壯大,數據量與業務量不斷遞增,處理數據的成本也在不斷增加,但卻無法有效利用數據資源來產生價值。而數據湖架構本身就缺少對數據監管、控制和必要的治理手段,導致運維成本不斷增加,數據治理效率降低。長此以往,企業落入了“數據沼澤”的境地。

 

而數字化轉型的核心要義,就是實現「釋放全量數據價值」。隨着企業數字化轉型的深化,跨多業務、多數據類型的新型應用場景不斷湧現,海量大數據場景下的實時處理、非結構化數據治理等需求,給企業數據基礎設施帶來了新的挑戰。

 

企業不僅需要面向業務交易的信息化傳統「交易核心」,同時更需要面向數據價值的「數據核心」。與傳統「交易核心」往往僅針對特定業務系統解決其交易需求不同的是,「數據核心」需要匯聚從多個「交易核心」產生的實時交易流水數據,爲全企業跨業務的多個系統提供高併發的實時對客全量數據查詢及數據探索分析能力。

 

湖倉一體技術的出現,在實現了對數據湖與數據倉庫技術融合,藉助海量、實時、多模的數據處理能力,實現全量數據價值的持續釋放的同時,也成爲企業數字化轉型過程中的關注焦點,爲用戶帶來了新的意義價值。

 

 

  • 一是彌補原架構的不足。相比數據湖來說,湖倉一體架構能夠支撐實時查詢和實時分析場景,彌補了Hadoop技術對於數據實時處理能力的不足。而相比數據倉庫來說,湖倉一體架構作爲支持實時處理的統一數據底座,具備多引擎實時處理多類型數據的能力,避免了數據倉庫無法分析非結構化數據的問題,以及不同平臺間數據移動所帶來的成本。

     

  • 二是能夠降低企業成本,提高效率。湖倉一體架構能夠降低數據流動帶來的開發成本及計算存儲開銷,提升企業效率。

     

  • 三是助力企業數字化轉型。在企業數字化轉型的過程中,企業需要根據自身業務場景及發展訴求來設計系統架構,單一模式已然無法滿足。而湖倉一體架構能夠幫助企業構建起全新的數據融合平臺,打破了數據湖與數據倉庫割裂的體系,將數據湖的靈活性、數據多樣性以及豐富的生態與數據倉庫的企業級數據分析能力進行了融合。

     

  • 四是降低能耗,實現低碳節能。湖倉一體技術能夠從基礎架構上打通數據湖與數據倉庫,提供實時查詢以及實時分析能力,從而有效的降低了能耗。

 

發展現狀

 

現階段,數據湖與數據倉庫的融合發展主要有三個技術路徑,根據不同路徑的技術特性,可以滿足不同場景下的客戶需求。

 

  • 第一個是基於Hadoop體系的數據湖向數據倉庫能力擴展,在數據湖中建數據倉庫,通過引入數據倉庫的分析功能,從數據湖直接進化到湖倉一體。

 

  • 第二個是基於自身雲平臺進行架構構建,主要是公有云廠商基於自身雲平臺或相關產品,通過自研技術打通數據湖與數據倉庫,實現湖倉一體功能。

     

  • 第三個是以獨立數據庫廠商爲代表的梯隊,其以數據庫技術爲基礎,自研分佈式平臺,從調度、計算到存儲不依賴第三方平臺,形成可以靈活在公有云、私有云、裸金屬等場景獨立部署的湖倉一體平臺。這類的代表廠商如海外的Snowflake,Databricks及國內的巨杉數據庫等。

 

 

報告選取了業界比較主流的6個湖倉一體產品進行對比分析,包括海外廠商Snowflake、Databricks及亞馬遜AWS智能湖倉,國內廠商巨杉數據庫SequoiaDB、阿里雲MaxCompute湖倉一體方案、華爲雲FusionInsight。

 

從設計初衷來看,各家產品雖然技術路線不同,或自研,或基於開源,或基於自身雲平臺的產品組合,但最終目的均一致是爲了降低數據在不同平臺間的流動,這樣做的好處一方面是技術上可以降低客戶的管理成本,另一方面在商業上也提升了客戶粘性和操作體驗。比如像亞馬遜AWS、阿里雲、華爲雲,會通過各類雲上的工具打通不同產品或組件間的數據流通,而Snowflake、Databricks、巨杉數據庫則會盡可能讓同一平臺上的數據具備更豐富的應用場景。

 

從特性上來看,各個廠商均強調了ACID事物一致性,因爲在湖倉一體中,數據不再如同傳統數據倉庫中的離線分析數據,客戶的業務數據將更實時的以數據流的方式寫入。雖然湖倉一體不需要如同事務型數據庫一樣,擁有低延遲的在線交易能力,但是在數字化轉型需求下,系統同樣需要提供實時的數據查詢分析能力,及保證在某一時間點上數據的準確性。

 

整體分析後不難看出,Snowflake從數據倉庫逐步提供多元化的數據處理,其最新版本也進一步強化了數據實時服務能力。Databricks的優勢在於對非結構化數據處理的AI機器學習及科學計算上,並持續擴展其數據倉庫的分析能力。巨杉數據庫以統一平臺下跨結構化、半結構化、非結構化的多模數據處理能力爲基礎,重點提供高併發的實時對客查詢,並持續擴展實時湖倉的分析能力。亞馬遜AWS、阿里雲、華爲雲則更注重於其基於自身雲生態的技術能力整合,簡化了雲平臺客戶在數據處理上的複雜度。

 

在報告中,也對湖倉一體的典型應用案例進行了分析,具體內容可下載報告後進行閱讀。

 

未來趨勢

 

分析來看,“湖倉一體”架構在數據管理中呈現出六大技術特性。

 

  • 一是支持分析多種數據類型,包括結構化、半結構化和非結構化數據。

     

  • 二是數據可治理,在保證數據完整性的同時,具有健全的治理和審計機制,能夠避免數據沼澤現象。

     

  • 三是事務支持,企業數據往往要爲業務系統提供併發的讀取和寫入,對事物ACID的支持,可確保數據併發訪問的一致性、正確性。

     

  • 四是BI支持,能夠支持直接在源數據上使用BI工具,加快分析效率,降低數據延遲。

     

  • 五是存算分離,使系統能夠擴展到更大規模的併發能力和數據容量。

     

  • 六是開放型,採用開放、標準化的存儲格式,並提供豐富的API支持。

     

與此同時,隨着湖倉一體技術的不斷成熟,未來將在四大應用場景中發揮作用。

 

  • 場景一:服務於數據中臺的實時數倉。由於數據中臺要求其數據庫在分析處理過程中,需強調事物一致性,並保持低延遲與提升實時處理能力,這些都是湖倉一體的典型技術特性。

     

  • 場景二:支撐微服務的數據融合底座。可有效解決擴展困難以及維護困難的問題。

     

  • 場景三:全量數據實時訪問平臺。在數字化轉型過程中,對客實時查詢,歷史數據服務平臺,或IoT物聯網系統中,會產生實時處理海量數據的需求,湖倉一體的彈性擴展能力能夠很好滿足這一需求。

     

  • 場景四:進行非結構化數據處理,數字化轉型中通過AI機器學習及比對分析,非結構化數據將包含更多元化的業務屬性,爲各類業務系統提供信息輸入。湖倉一體能夠有效提升非結構化數據的處理能力。

 

賽迪建議

 

賽迪顧問認爲,對用戶來說,用戶在選擇數據管理架構時,應根據自身業務情況,來考慮未來發展需求。同時,專業化服務是當前數據管理市場的主要發展趨勢,企業用戶在選擇供應商時應該重視廠商的專業化服務,實施,及交付能力。

 

對廠商來說,要重視研發投入,加快產品與新興技術融合。企業應積極完善湖倉一體技術解決方案,同時加速將人工智能、雲計算等新興技術與現有產品結合,提升產品智能化,搶佔未來市場領先地位。同時,也要持續提升自己的服務能力與質量。

 

 

相關閱讀

從離線到實時對客,湖倉一體釋放全量數據價值
湖倉一體釋放全量數據價值,SequoiaDB v5.2線上發佈會重磅來襲
賽迪發佈《湖倉一體技術研究報告》,巨杉數據庫入選國內企業典型代表
首批入選!金融信創解決方案評選結果公佈助力灣區金融科技,巨杉數據庫入選首屆粵港澳大灣區金融科技飛魚企業20強榜單21經濟網專訪 | 巨杉下一個十年:紮根科創福地,打造數據庫行業生態艾瑞諮詢中國數據庫行業研究報告正式發佈,湖倉一體架構獲業界認可

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章