魚和熊掌可以兼得,雲原生開啓“數據庫大數據一體化”新時代

10月23日數據湖高峯論壇上,阿里巴巴集團副總裁、阿里雲智能數據庫產品事業部負責人、達摩院數據庫與存儲實驗室負責人李飛飛表示:“雲原生作爲雲計算領域的關鍵技術與基礎創新,正在加速數據分析全面進入數據庫大數據一體化時代”。

他表示,隨着數字化轉型進程深入推進,企業的數據存儲、處理、增長速度發生了巨大的變化,傳統數據分析系統在成本、規模、數據多樣性等方面面臨很大的挑戰。雲計算的發展正在加速推進數據分析系統進入“數據庫大數據一體化”時代,以更好得幫助企業加速邁入數字原生時代加速業務數智化。

傳統數據分析系統和技術面臨巨大挑戰

近年來,企業數據需求呈現出海量、數據類型多樣化、處理實時化、智能化等新特點,對數據分析系統提出了彈性擴展、結構化/半結構化/非結構化海量數據存儲計算、一份存儲多種計算及低成本等核心訴求。

而傳統商業化數據倉庫及大數據技術,因存在擴展性、建設維護成本、系統複雜讀等一系列挑戰,無法很好得滿足業務訴求。例如,大量企業需要對數據進行離線ETL計算、機器學習及多維度查詢分析等多種計算時,使用大數據技術或傳統數據倉庫,企業需要組合使用多種技術產品,通過複雜的數據集成、數據冗餘來滿足多樣的計算訴求,整個技術架構複雜且數據冗餘成本高。

雲原生重構數據處理架構,加速向“數據庫大數據一體化”演進

針對企業面臨的分析困境,是否有一種新型數據分析技術和架構能夠高效解決海量數據深度計算分析的業務訴求?答案是肯定的,李飛飛表示,下一代數據分析演進方向是“以雲原生爲基礎,在離線一體化技術融合,實現數據庫大數據一體化”。

隨着雲計算的發展,計算存儲解耦、資源池化、Serverless、流批一體等核心基礎技術正在加速數據分析系統向“數據庫大數據一體化”演進。“數據庫大數據一體化”的雲原生數據分析系統能夠很好得提供彈性擴展、海量存儲、多種計算及低成本等能力,有效解決海量數據深度計算分析的業務分析和創新訴求。

其實,“數據庫大數據一體化”也是業界近年的發展趨勢,Gartner及業界多個產品都在朝這個趨勢演進:

  • Microsoft SQL Server 在2018年9月發佈的SQL Server 2019預覽版中宣佈通過深度集成Spark與Hadoop提供端到端的數據處理解決方案。

  • AWS Redshift及Snowflake均提供離線ETL處理、多維度交互式分析、實時增刪改查的一體化的產品能力。

同時,2019年6月,全球知名諮詢公司Gartner發佈了一篇名爲“There is only one DBMS Market“的報告,報告指出過去,因爲性能需求不同,根據業務場景按照分析型和交易型需求,需要獨立發展OPDBMS和DMSA,而未來分析型和交易型數據操作對技術架構依賴性會更小,將不再需要獨立區分OPDBMS和DMSA,未來通過一體化的數據處理技術即可滿足絕大部分訴求。

從技術架構演進過程來看,數據處理發展經歷了四個重要階段:

  • 60年代,關係數據庫之父E.F.Codd博士提出了關係模型,促進了聯機事務處理(OLTP)的發展,誕生了如Oracle、DB2等數據庫幫助核心業務如銀行實現在線交易的普及。

  • 1993年,關係數據庫之父E.F.Codd博士提出多維數據庫、多維分析的概念以及十二條準則,認爲OLTP已不能滿足終端用戶對數據庫查詢分析的性能需求,SQL對大型數據庫進行的簡單查詢也不能滿足終端用戶分析的多樣性要求,促進了在線分析處理(OLAP)的發展,出現了MOLAP(Multidimensional OLAP)、ROLAP(Relational OLAP)、HOLAP(Hybrid OLAP)計算模型和引擎,誕生了如IBM Cognos、Oracle Essbase、Greenplum等數據倉庫幫助業務實現海量數據存儲、建模、業務分析探索的普及。

  • 2003~2006年,Google發表《The Google File System》、《MapReduce:Simplified Data Processing on Large Clusters》、《Bigtable:A Distributed Storage System for Structured Data》三篇海量數據存儲、處理重要論文,促進了大數據技術的飛速發展,誕生了如Hadoop HDFS、Hadoop MapReduce、Tez、HBase、Spark、Flink等爲代表的分佈式文件系統、分佈式計算框架、分佈式寬表存儲系統,加速了大數據應用向5V(Velocity、Volume、Variety、Value、Veracity)方向發展和普及。

  • 2012年至今,隨着雲計算的發展,雲計算的資源池化、存儲與計算彈性擴展等基礎設施升級以及計算存儲分離、在離線一體化等技術創新,促進了數據處理開始朝一份數據開放計算、存儲計算分離的雲原生方向演進,誕生了如Snowflake、AWS Redshift、AWS Aurora、AWS Athena爲代表的新一代雲原生數據庫、數據倉庫、數據湖,加速了數據處理向在線化、在離線一體化、結構化與非結構容和處理演進,加速業務走向數字化、數智化創新的新形態。

李飛飛表示,“數據庫大數據一體化”的數據分析系統應該具備如下特徵:

1、雲原生,數據分析系統需要支持強大的彈性擴展能力,根據業務負載動態擴展計算資源,提供大規模數據處理能力,有效滿足數據分析性能訴求的同時,降低分析成本。

2、一份存儲多種計算,數據分析系統必須支持在一份存儲數據上兼容多種計算,包括實時增刪改查、多維度交互式分析、離線ETL及機器學習。通過一份存儲支持多種計算的特性,避免了數據計算過程中的數據搬遷,簡化了數據分析過程,降低分析成本。

3、海量存儲,支持結構化、半結構化及非結構化數據庫的存儲及計算。隨着IOT/移動網絡的發展,半結構化/非結構化數據佔比越來越高,數據分析系統需要支持這些數據的低成本存儲及計算,助力企業充分挖掘併發揮數據價值。

4、全面兼容數據庫生態,數據分析系統需要提供併兼容數據庫接口協議,且支持數據庫上下游生態,降低數據分析門檻,讓開發人員會數據庫就會大數據。

基於“數據庫大數據一體化”的演進趨勢,阿里雲推出了以雲原生數據倉庫AnalyticDB及雲原生數據湖分析DLA爲核心的雲原生數據分析系統。深度融合數據庫及大數據技術,爲企業提供一體化的數據接入、數據存儲、數據計算及數據分析解決方案,讓會數據庫的用戶就會大數據。

雲原生數據倉庫AnalyticDB讓開發人員“會數據庫就會大數據

爲滿足企業計算分析多元化的訴求,阿里雲於2013年開始研發並推出雲原生數據倉庫AnalyticDB。基於雲構建,秉承“數據庫大數據一體化”的理念,AnalyticDB爲用戶提供了新一代的數據分析系統,有效解決當前企業數據分析痛點。AnalyticDB具備如下優勢:

  1. 離在線一體化,AnalyticDB提供離線ETL及多維度交互式分析的多樣化計算能力。通過存儲服務化、MPP+DAG混合計算引擎及混合負載調度等技術,實現一份數據多種計算的能力。且基於智能索引、智能優化器及行列混存等技術,複雜SQL的查詢速度相較於傳統的數據分析系統快10倍以上。

  2. 雲原生,AnalyticDB通過存儲計算分離及存儲服務化等技術,實現了計算與存儲的獨立自由彈性。AnalyticDB可以根據業務負載變化動態擴縮計算資源,滿足企業數據分析性能訴求的同時,有效控制分析成本。同時,存儲服務化後,按存儲量付費。

  3. 海量存儲,AnalyticDB通過分佈式存儲、存儲服務化及向量計算等多種技術,可以支持結構化、半結構化及非結構化海量數據的存儲。同時,AnalyticDB支持冷熱數據分層存儲。企業可以根據業務的使用情況,做表/分區級別的冷熱分離存儲,通過對低頻訪問的冷數據提供低價存儲,對於頻繁訪問的熱點數據,採用ESSD存儲滿足高性能訪問,進而保障訪問性能的同時,優化整體數據存儲成本。

  4. 兼容數據庫生態,不同於複雜、高門檻的大數據體系,AnalyticDB高度兼容MySQL、PostgreSQL及Oracle。兼容數據庫的客戶端及上下游生態,降低數據分析門檻,讓開發人員會數據庫就會大數據。

  5. 一鍵建倉,AnalyticDB提供一鍵建倉功能,企業可以通過一鍵建倉功能輕鬆得將數據庫及日誌數據實時集成至AnalyticDB。

與傳統數據分析系統最大的不同是,AnalyticDB基於“數據庫大數據一體化”的技術架構,爲用戶提供一體化的數據分析系統,滿足多樣化的數據分析訴求,讓開發人員會數據庫就會大數據。

雲原生數據湖分析DLA讓數據湖分析進入Serverless時代

近幾年數據湖的概念很火,數據湖允許以任意規模存儲所有結構化、非結構化及半結構化數據,其中的數據主要用於報告、可視化、增強分析及機器學習等場景。爲了實現數據湖的數據可分析,需要解決數據湖構建、元數據構建管理及數據計算引擎對接等問題。爲此,阿里雲2018年開始佈局並推出端到端的數據湖解決方案:雲原生數據湖分析Data Lake Analytics(簡稱:DLA),幫助企業快速構建並高效挖掘數據。

雲原生數據湖分析DLA,具備四大優勢:

  1. 數據湖管理,DLA提供一站式數據湖管理能力,包括元數據發現、管理及變更,全量及增量數據一鍵入湖。元數據管理功能可以支持OSS/RDS/Hbase/MongoDB等數據源的元數據自動發現、管理及變更。同時,內置Apache hudi, DLA支持增量數據分鐘級入湖,助力企業構建準實時數據湖。

  2. 一份存儲多種計算,DLA提供了Presto、Spark兩種計算引擎,滿足多維度交互式分 析、離線ETL、機器學習等多種計算能力。針對Presto,DLA在資源隔離、高可用及元數據庫權限隔離等方面做了極大增強,保障服務穩定性及可靠性。同時,對於Spark計算引擎,DLA實現了數據緩存、元數據訪問優化及文件上傳優化等,保障計算性能,據測試,在Spark典型ETL Benchmark Terasort,1TB輸入數據量的場景下,相較於自建spark,DLA性能提升163%。

  3. Serverless計算分析,DLA基於容器及多租戶隔離等技術,提供完全Serverless的計算能力。DLA可以根據Spark Job或Presto SQL動態擴縮計算資源,一分鐘可拉起300個計算節點。用戶只需按實際運行作業付費,計費精確至秒級,相較於自建系統,性價比提升300%,大大提升數據分析性價比。

  4. 數據庫生態兼容性,DLA 完全兼容MySQL的JDBC,兼容MySQL的客戶端及上下游生態,降低數據分析門檻,讓開發人員會MySQL就會大數據。

到企業中去

未來數據分析系統將全面進入“數據庫大數據一體化”時代,阿里雲AnalyticDB及DLA將秉承“數據庫大數據一體化”理念,持續打造雲原生、一體化的數據分析能力,助力企業加速邁入數字原生時代。


文章來源:量子位

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章