一文讀懂數據平臺、大數據平臺、數據中臺

 

造概念,在 IT 行業可不是一件陌生的事兒,中文博大精深,新名詞、新概念往往簡單準確,既可以被大衆接受,又可以被專家把玩,真正做到雅俗共賞、各有趣味。近年來,數據中臺之火爆,什麼數據平臺、數據中臺、數據湖、數據集市等等,不同的叫法把大家繞的雲裏霧裏,概念混淆不清,着實讓人摸不着頭腦……

正如我們清楚的知道企業要進行數字化驅動架構之前,必須要建立統一的數據標準和規範,用統一的、大家都瞭解的語言描述一件事情是多麼重要。同樣的道理,在理解“大數據”“數據中臺”相關知識之前,我們有必要先將常遇到的包括數據倉庫、數據集市、數倉湖、大數據平臺、數據中臺等概念一次性說清,以便在今後的學習與建設中能夠清楚的區別開來。

在回答上述問題之前,我們先來看看數據中臺應該怎麼理解?阿里認爲數據中臺其三項核心能力分別爲:OneModel 負責統一數據構建及管理,OneID 負責將核心商業要素資產化,OneService 負責向上提供統一的數據服務。

智領雲認爲,數據中臺的核心能力是數據能力的抽象、共享與複用,兩者對數據中臺的定義看似差異巨大,但仔細分析,阿里所定義的數據中臺的核心能力正是智領雲所定義的數據中臺的結果。換言之,“抽象”是爲了達成“OneModel”、“共享”則是爲了“OneID”、“複用”才能讓“OneService”更有意義。

數字化運營不同階段,運營手段各盡所能

隨着大數據技術的不斷更新與迭代,數據管理工具得到了飛速的發展,從數據庫、數據倉庫、數據集市與數據湖,再到大數據平臺與如今的數據中臺,其實將它們比喻成一場“數據的旅程”就不難理解在數字化運營的不同階段,各運營手段並不一定是誰替代了誰,準確的講,它們都有自己的功能、特點所在,技術之間的互補,每個手段都各盡所能的爲自己的用例服務。下面我們就來簡明扼要的歸納一下數字化運營不同階段中各運營手段的功能與亮點。

1、數據庫:傳統的關係型數據庫的主要應用,主要是基本的、日常的事務處理,例如銀行交易。

2、數據倉庫:數據倉庫系統的主要應用是 OLAP,支持複雜的數據分析,側重決策支持,並且提供直觀易懂的查詢結果,可做到業務的歷史快照,總結性數據以及高緯度分析。

3、數據集市:可以理解爲是一種"小型數據倉庫",只包含單個主題,且關注範圍也非全局,數據從企業範圍的數據庫、數據倉庫中抽取出來,迎合專業用戶羣體的特殊需求,其面向部門級業務或某一個特定的主題,良好地解決了靈活性和性能之間的矛盾。

4、數據湖存儲企業各種各樣原始數據的大型倉庫,其中的數據可供存取、處理、分析及傳輸,主要解決的是“看見數據”的問題,作爲全局數據彙總及處理的一個核心功能,數據湖在數據中臺建設中必不可少,除了爲數據倉庫提供原始數據之外,數據湖也可以直接爲上層的數據應用提供服務。

5、大數據平臺:個性化、多樣化數據,以處理海量數據存儲、計算及流數據實時計算等場景爲主的一套基礎設施,使用大數據平臺,企業可以比競爭對手更快地作出數據驅動的決策,更快地推出適應客戶需求的產品。

6、數據中臺:我們知道所有關於數據工具的建設,其目的都是爲了從數據中提取價值來支持更有效的數據運營,那麼不能指導實際行動,創造實際價值的數據以及從數據中產生的知識是無用的,那花大價錢來做這個系統也沒有必要。

說到底,數據工具的建設還是要以 ROI(Return On Investment)來支持,數據中臺概念的出現,很大程度上是原來的大數據系統建設的 ROI 不如人意,企業投入了大量的物力、財力和人力建設了大數據平臺,卻發現並沒有給企業帶來應用的價值,大數據平臺更多的淪爲“形象工程“,甚至產生了新的數據孤島,更不用說實現數據能力的全局抽象、複用和共享了,而數據中臺可以說是爲此類大數據平臺了個“補丁”,其全局的數據倉庫、大數據協調共享等能力,真正解決了重複開發、數據標準不統一、數據孤島等問題,從而提高了數據價值實現效率和 ROI。

常見混淆概念梳理:傳統大數據平臺、硅谷大數據平臺、數據中臺

其實,數字化運營不同階段的運營手段相對來說是比較好理解的,但是我們常常能聽到一些字面意思相近的概念,尤其是當我們瞭解到原來在美國硅谷“中臺”其實早已有之,只不過這種方法論在被引入到國內之後,被冠以“中臺”之名時混淆的概念常常讓我們不知所措。

那麼,在硅谷所謂的“中臺”叫什麼?國外的大數據平臺與國內的大數據平臺又有什麼區別?接下來就讓我們統一相關概念並梳理其關係,一次性說清讓大家一目瞭然。

1、大數據平臺 1.0

大數據平臺 1.0 = 傳統大數據平臺 。

大數據平臺 1.0 時期,其實就是我們通常所看到的國內“傳統大數據平臺”的概念,此時的大數據平臺是以處理海量數據存儲、計算及流數據實時計算等場景爲主的一套基礎設施,以 Hadoop、Spark、Hive 等作爲大數據基礎能力層,在大數據組件上搭建包括數據分析,機器學習程序等 ETL 流水線,以及包括數據治理系統、數據倉庫系統、數據可視化系統等核心功能。

但是在大數據平臺 1.0 時期,硬件投資與軟件開發投入量巨大,極大增加了研發的難度、調試部署的週期、運維的複雜度,且經常由於架構的缺陷,數據應用開發運維的困難,多租戶資源隔離的複雜度等原因造成數據孤島、應用孤島的問題。

傳統大數據平臺

2、大數據平臺 2.0

大數據平臺 2.0 = 新一代大數據平臺=大數據平臺1.0+數據中臺的功能+數據運營的功能。

大數據平臺 2.0 時期充分詮釋了硅谷“中臺”早已有之的說法,但爲什麼硅谷沒有“數據中臺”概念?原因是硅谷公司從起步開始,管理層就將打造數據驅動需要的基礎架構作爲必須的功課之一,公司內部都有一個 Data Platform(數據平臺)部門負責建設公司的數據平臺,其大數據平臺建設絕大多數是需求驅動,且後續發展都是由這個大數據平臺能產生多少價值來決定的。

也就是說,在硅谷大家其實也並沒有刻意的去打造什麼中臺,但是“避免重複造輪子”“快速迭代”“數據驅動”“業務驅動”是硅谷工程師文化的一些核心概念,也是硅谷高效創新的一個核心,大部分公司在起始架構設計時,就將“數據中臺”所包括的數據抽象、複用與共享的能力,以及一些數據運營的功能設計在內了,其建設目的是一樣的,所以沒有必要在概念上過度糾結。

3、數據中臺

數據中臺建設的目標可簡單歸納爲通過提供工具、流程和方法論,實現數據能力的抽象、複用和共享,賦能業務部門,提高實現數據價值的效率。阿里提出數據中臺的概念,只是爲了強調和國內現有的大數據平臺加以區別,強調解決數據孤島、重複開發的問題,突出數據共享和複用的概念。

數據中臺

深入探究:數據中臺與 Ta 的關係

想必現在你已經從傻傻分不清的狀態中走出來,接下來,我們再深入具體地瞭解下數據中臺與之相對應的關係,看看你是不是已經遊刃有餘的掌握了相關概念呢?

1. 數據中臺與傳統數據倉庫、數據集市、數據湖的關係

數據倉庫與數據集市的出現,就是爲了解決信息化階段 OLTP(聯機事務處理過程)在分析場景下的侷限性,它們將 OLTP 中的數據採集過來,做成面向歷史、主題、分析的一些數據集,從而可以輕鬆地做出 OLTP 難以做出的分析。

但是,隨着互聯網時代的到來,數據倉庫的數據來源只在業務系統功能中,提供一些匯聚的業務信息,無法提供個性化的信息以及一些非傳統業務數據源的信息。另外,一些非傳統業務數據源的信息一般存儲在服務器日誌中,那麼大量且無效的數據如果都存儲到數據倉庫中,其效率之低和限制是無法想象的。

此時,數據湖和大數據平臺的出現改變了上述局面,在這個階段的數據倉庫和數據集市,則基於大數據技術取得了進化,也就是說數據倉庫不能解決的問題,我們用大數據數倉(基於大數據技術實現的數據倉庫)來解決,大數據數倉解決不了的,我們用大數據平臺來解決,大數據平臺解決不了的問題,就需要數據中臺來解決。

應該說數據中臺是建立在數據倉庫和數據平臺之上的,讓業務部門可以更好,更有效率的使用數據的運營管理層,並強調從工具和機制上支持對數據能力的抽象、共享和複用。

2. 數據中臺與大數據平臺 1.0、2.0 的關係

很多人會疑惑大數據平臺 1.0 與數據中臺的差別在哪裏呢?其實,兩者的建設目的都是發掘數據價值,高效實現數字化運營,區別則在於數據中臺是具備業務屬性的,輸入的是原始數據,輸出的是業務部門可以直接使用的數據能力。如果必須要將數據中臺和大數據平臺 1.0 區分開來,可以說數據中臺是建立在大數據平臺 1.0 的基礎層之上,強調提供相應的工具和機制來實現數據能力的全局抽象、共享和複用。

在國內,爲什麼很多企業面臨着數據孤島與應用孤島的困局?而在硅谷,大多數企業並沒有數據孤島、應用孤島的煩惱?因爲硅谷每個公司在建設大數據平臺的時候,大數據平臺的運營效率和使用效率,都是必須要考慮的關鍵問題。在起始架構設計與後續迭代的時候,如何最大化投入產出比,並讓業務部門真正發揮數據的作用都是關鍵所在。在這個過程中,也有很多的嘗試和迭代,但是最終的結果是,絕大部分的大數據平臺自然的就會提供所謂的“數據中臺”的功能,成爲公司內部的一個核心價值驅動引擎。

大數據平臺 1.0 與 2.0 關係圖

而大數據平臺 2.0 作爲新一代大數據平臺,則是在大數據平臺 1.0 基礎上,增加了數據中臺的功能,以及數據運營的功能。對於“各個部門數據重複開發,浪費存儲與計算資源”、“數據標準不統一,數據使用成本高”、“業務數據孤島問題嚴重,數據利用效率低”,這些需要在大數據平臺 1.0 階段解決的問題,並沒有在國內企業的大數據平臺階段得到考慮和解決。因此,需要一個新的平臺來爲這個大數據平臺“打補丁”,而這個新平臺,就是所謂的“數據中臺”。

雲原生的數據中臺架構

值得強調的是,國內企業級大數據平臺解決方案提供商智領雲數據中臺則是雲原生的數據中臺,如上圖所示,整個架構的最底層是硬件資源層,在硬件資源層之上,左側是應用基礎能力平臺,右側是數據基礎能力平臺,整個架構設計中一個很重要的方法論就是全局的應用和數據管理。

總結:本文從數字化運營不同階段對數據倉庫、數據湖、大數據平臺、數據中臺等內涵作了詳細說明,便於讀者更好的理解和掌握數據領域相關概念,並幫助大家更好地瞭解大數據帶給我們的能力與作用。需要強調的是,除了瞭解數據中臺的概念外,其方法論更爲重要,數據中臺建設爲我們企業數據服務和共享奠定了重要的基礎,是企業從“數據”邁向“價值”的強大助推器。

本文轉自公衆號:CSDN

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章