數智時代新基石，賈揚清重磅發佈新一代雲原生數據倉庫與數據湖

6月9日，在2020阿里雲峯會上，阿里巴巴副總裁、阿里雲計算平臺事業部高級研究員賈揚清宣佈推出新一代雲原生數據倉庫和數據湖解決方案。基於創新的技術架構，新一代雲原生數據倉庫可支持PB級數據關聯分析和實時查詢，實現離線、實時、分析、服務的四位一體。同時推出的數據湖解決方案，採用一種存儲多種計算理念，基於存儲與計算分離架構和全新大數據分析加速引擎，可實現與本地計算一樣的快速體驗，激發企業數智動能。

以下爲賈揚清演講全文[（附視頻回顧>>)](https://summit.aliyun.com/events?liveId=2923

如今我們談到產業數字化，數字產業化，今天絕大多數的經濟活動、數據的沉澱分析和服務都是離不開的。同時我們又說摸着石頭過河，絕大多數的企業在業務升級跟技術升級的過程當中，往往都採取一個摸着石頭過河的方法，在遇到不同的數據分析跟服務的需求的時候，尋找單個的單點的系統來解決它實際的單點的問題。這樣的一個過程就會遇到最後的一個問題，是在一個看似完整的系統背後，是一個一個的數據的孤島，這些孤島之間數據的聯通，數據的實時傳輸都變成了非常大的問題。

從一個整個企業的角度來說，業務所看到的是數據洞察的困難，而系統看到的是數據分裂的成本，作爲企業業務如此重要的數據倉庫的概念，我覺得我們需要頂層的設計來重構數據倉庫，這是我們今天向大家展示的基於Hologres、MaxCompute、Realtime Compute的離線、實時、分析、服務一體化的，實時即服務的一個理念。如果我們回到數據倉庫最本質的需求的話，其實它的本質問題並不複雜。數據倉庫需要把多個來源的數據綜合在一起，實時地沉澱到一套存儲上去，同時在上面做多種形態的，無論是離線、實時還是交互式的分析，以及做結果的展示和服務。我們以前經常聽到的一個概念叫HTAP（Hybrid Transaction and Analytical Process），事物跟分析的一體化，對於事物來說，它更多的是在考察一個數據的單位，比如說一個數據庫，對於讀寫性能和安全性這樣的一些指標。但是今天我們所看到的是，分析跟服務是更加一體的。分析，是說我們要把這樣海量的數據當中的規律分析洞察出來，那麼同時這些洞察的最終目的是爲了服務，無論是數據大屏還是運營分析，它都是一個展示服務數據的一個過程。要解決數據孤島的問題，我們就要把分析的形態跟服務的形態更緊的結合起來。我們把這樣的一種模式叫HSAP（Hybrid Serving Analytical Processing），基於Hologres跟MaxCompute這樣的一個數倉，我們可以實現Hologres跟MaxCompute數據的打通，通過Hologres來實現高性能、低延時的分析，同時通過MaxCompute來實現大規模、低成本的離線計算。在這樣的一個基礎上面，我們可以實時的將這些數據分析的結果以及實時沉澱的數據，推送到不同的像大屏和運營看板這樣的一些服務上去。

在阿里巴巴集團內，對於數據最大的一個需求可能是在雙11這一天，它有了大量的數據流轉，也有着非常複雜的業務決策。在2019年的時候，我們通過Hologres跟MaxCompute這樣的一個數倉，給我們支持業務的系統做了一次升級。在雙11當天的時候，我們這一套系統支持了總共1.45億次的在線查詢，這些查詢再往上所支持的是非常複雜的業務的分析和決策的一個過程。這些分析的背後同時又是帶有着1.3億條實時記錄寫入的一個大規模的數據體量。頂層設計走對了之後，性能其實並不是問題。基於MaxCompute、RealtimeCompute和Hologres，這樣的一整套數倉體系可以解決我們數據孤島的問題。在沒有數據冗餘的這樣一個情況下面，來簡化系統，降低成本，同時來提升我們數據分析的效率。我們也考慮到在建設一個數倉的時候，開源、社區和生態是很重要的，所以我們在建設Hologres的時候，採取了基於PostgreSQL這樣的一個完全兼容開源的生態體系。數據工程師和上層的BI工具，可以更加容易地、無縫地把自己現有的系統接入到Hologres和MaxCompute，實現分析和服務的一個無縫遷移。

實時即服務，基於HSAP這樣的一個理念，我們可以大大的簡化數倉的設計，真正的實現在數據全生命週期當中離線、實時、分析、服務一體化的一個系統。

在企業上雲的過程當中，我們還看到另外一個需求，就是海量的異構數據，這些數據可能是日誌，可能是圖片、視頻、語音也有可能是在之前經營過程當中沉澱下來的大量的數據形態。這些數據和數倉所解決的結構化數據的問題是不太一致的，他們變得更加的多樣，更加的非結構化，但是同時他們也有和結構化數據一樣的需求：海量、高速、安全、智能以及無縫上雲。基於這樣的一個需求，已經有1000多家企業在我們阿里雲OSS對象存儲這樣的一個通用存儲的解決方案上面，來構建一體化的數據湖解決方案。數據湖可以給大家解決兩個問題。第一個問題是解決多種形態的數據的無縫接入、聚合的一個問題，他可以把多樣的數據都放在同一套存儲上面，同時在這套存儲上面，它可以更快地對接多種自建和託管的引擎，來實現不同的分析服務的業務的創新，無論是搜索推薦、機器學習，還是其他各種多種多樣的服務形態。

今天我們在這裏重磅發佈新一代雲原生的數據倉庫和數據湖的解決方案，背後的理念是從數據孤島到一種存儲，多種計算、實時即服務這樣的一個系統設計。在阿里雲上面我們還有數據的綜合治理DataWorks和機器學習PAI這樣的平臺，通過這一整套的數據產品，我們可以實現應用的數據化和智能化。我們認爲未來每一家企業都應該在雲上建設數據倉庫和數據湖，解決紛繁複雜的數據問題。

本次峯會Hologres商業版首發，指定規格首月三折!立即體驗>>
瞭解更多峯會大數據&AI詳情請點擊：https://www.aliyun.com/activity/bigdata/2020live

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

數智時代新基石，賈揚清重磅發佈新一代雲原生數據倉庫與數據湖

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

一鍵自動化博客發佈工具,用過的人都說好(掘金篇)

通義千問 2.5 “客串” ChatGPT4，你分的清嗎？

Garnet：微軟官方基於.NET開源的高性能分佈式緩存存儲數據庫

Flink執行圖

Java響應式編程

評估統計算法在銀行僞造鈔票檢測中的價值

數智時代新基石，賈揚清重磅發佈新一代雲原生數據倉庫與數據湖

DataWorksV3.0全新發布，新特性快速一覽

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結