從OLAP走向HTAP的全能手,雲原生數據倉庫AnalyticDB通過信通院雙料認證

近日,在中國信息通信研究院(下文簡稱信通院)組織的第十批大數據產品能力評測圓滿結束。由來自科研院所、高校、知名企業組織的評委會,對60餘款產品進行了評測。
阿里雲雲原生數據倉庫AnalyticDB,順利通過了分佈式事務型數據庫基礎能力和性能專項評測。這也是自去年通過了信通院組織的分佈式分析型數據庫基礎能力和性能專項評測後,在事務型領域取得的又一佳績。AnalyticDB也因此成爲目前國內唯一一款通過分析型、事務型兩類場景的分佈式數據庫產品,一款真正意義上的HTAP型產品。

1.從OLTP/OLAP走向HTAP

在傳統數據使用場景中,通常可劃分爲兩個領域:聯機事務處理(簡稱:OLTP)和聯機實時分析(簡稱:OLAP)。前者是事件驅動、面向應用的。其特徵是前臺接收的用戶數據可以立即傳送到計算中心進行處理,並在很短的時間內給出處理結果,是對用戶操作的快速響應。例如銀行類、電子商務類的交易系統就是典型的OLTP系統。
後者OLAP是面向數據分析的,也稱爲面向信息分析處理過程。它使分析人員能夠迅速、一致、交互地從各個方面觀察信息,以達到深入理解數據的目的。其特徵是應對海量數據,支持複雜的分析操作,側重決策支持,並且提供直觀易懂的查詢結果。例如數據倉庫是其典型的OLAP系統。兩者簡單對比如下:

面對上述複雜多變場景,是由單一平臺還是多平臺來處理呢?一般來說,專有系統性能更好,因此應採用多平臺模式。但隨着近年來軟硬件技術發展和需求變化,未來整合的趨勢更爲明顯。通用化集成數據平臺將能滿足絕大多數用戶的場景,只有極少數企業需要專有系統來實現其特殊需求。對於融合聯機事務處理和聯機實時分析的平臺方案具備下面優點:

  • 通過數據整合避免信息孤島,便於共享和統一數據管理。

  • 基於SQL的數據集成平臺可提供良好的數據獨立性,使應用能專注於業務邏輯,不用關心數據的底層操作細節。

  • 集成數據平臺能提供更好的實時性和更全的數據,爲業務提供更快更準的分析和決策。

  • 能夠避免各種系統之間的膠合,企業總體技術架構簡單,不需要複雜的數據導入/導出等,易於管理和維護。

  • 便於人才培養和知識共享,無須爲各種專有系統培養開發、運維和管理人才。

針對上面的融合趨勢,HTAP的概念近些年來火熱起來。HTAP數據庫(Hybrid Transaction and Analytical Process,混合事務和分析處理),是2014年Gartner的一份報告中使用混合事務分析處理(HTAP)一詞描述新型的應用程序框架,以打破OLTP和OLAP之間的隔閡,既可以應用於事務型數據庫場景,亦可以應用於分析型數據庫場景。這種架構具有顯而易見的優勢:避免繁瑣且昂貴的ETL操作,還可更快地對最新數據分析。這種快速分析數據的能力將成爲未來企業的核心競爭力之一。

2.AnalyticDB產品介紹

此次通過事務型、分析型雙料認證的產品—雲原生數據倉庫AnalyticDB,正是一款真正意義上的HTAP產品。產品本身基於PostgreSQL內核構建的分佈式數據庫,支持ANSI SQL , 兼容部分Oracle語法,支持存儲過程、觸發器、用戶自定義函數UDF等豐富語法功能,其水平擴展架構,即支持高吞吐的分佈式事務處理,也支持高性能的複雜查詢分析,是阿里雲提供的高性能分佈式HTAP數據庫。
作爲一款分佈式數據庫產品,擴展能力尤爲重要。AnalyticDB產品至今還保持着國內分佈式數據庫大規模評測最高紀錄(640節點)。在性能表現上,除通過信通院分佈式相關性能評測外,AnalyticDB還於上月通過標準TPC組織的TPC-H 30TB 評測認證,取得性能第一的佳績,成爲國內首個通過國際 TPC-H 認證的產品。雲原生數據倉庫AnalyticDB,經過多年積累完善趨於成熟,已服務於阿里經濟體及衆多外部企業用戶,涵蓋金融、政府、零售、互聯網、教育等數百家客戶。

AnalyticDB PostgreSQL版基於PostgreSQL內核,分爲Master協調節點和Segment數據節點。Master 負責SQL的解析和優化,並生成分佈式執行計劃,發送給segment節點並行執行。Master上可分爲一個Main Master和多個Secondary Master,其接受客戶端請求,並進行SQL的解析和優化。

同時Main Master構建了GTM全局事務管理模塊,維護全局統一的事務ID和當前活躍事務列表,從而實現嚴格的SERIALIZABLE、READ COMMITTED 隔離級別 ,保證各個節點間事務的強一致性。Master節點含有Cascade架構SQL優化器,將RBO和CBO統一結合,同時可自動優化改寫關聯子查詢等複雜SQL語句,實現計算按最優的分佈式計劃執行,規避複雜SQL的手工調優改寫。

計算節點 Segment可水平擴展,支持多副本存儲。表支持按行或者按列進行數據存儲。當面向交易場景時,行存儲提供高吞吐的事務處理能力,面向分析場景時,列存儲及多種索引機制等,提供高性能的聚合分析,以及數據高壓縮比。此外在既有PostgreSQL的計算引擎基礎上,開發了全新的高性能向量化計算引擎laser。

此外,AnalyticDB PostgreSQL版在既有PostgreSQL的計算引擎基礎上,開發了全新的高性能向量化計算引擎laser。通過算法設計,消除了傳統引擎火山模型、碎片化內存分配、冗餘邏輯等帶來的性能問題,將CPU資源用於核心計算;採用LLVM進行自動代碼生成(CodeGen),提升表達式計算性能、精簡計算邏輯,實現邏輯計算完美“瘦身”;同時充分利用新硬件特性,採用了CPU的SIMD等新技術,最大提升計算性能。

3.寫在最後

HTAP,作爲近兩年頗爲火爆的概念,已經逐漸從一個理論概念逐步走向具體產品。以阿里雲AnalyticDB通過雙料認證爲代表,這一技術已逐步成熟走向商用。相信,在不久的將來,將有更多的客戶可以從HTAP上收益,將企業內數據使用提升到新的高度。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章