我該建數倉、大數據平臺還是數據中臺?看完腦子終於清醒了

一、層出不窮的新名詞

 

現在各種新名詞層出不窮:

 

  • 頂層的有數字城市、智慧地球、智慧城市、城市大腦;

  • 企業層面的有數字化轉型、互聯網經濟,數字經濟、數字平臺;

  • 平臺層面的有物聯網,雲計算,大數據,5G,人工智能,機器智能,深度學習,知識圖譜;

  • 技術層面的有數據倉庫、數據集市、大數據平臺、數據湖、數據中臺、業務中臺、技術中臺等等。

 

總之是你方唱罷他登場,各種概念滿天飛…

 

在比拼新經濟的過程中,其實比拼的是流量也就是用戶,但流量不等於用戶,用戶也不完全等同於流量;有了流量和用戶,就等於比拼了對用戶的話語權。

 

各種互聯網概念也是如此,單純從傳統的數據倉庫或是大數據平臺而言,金融或通信運營商在數據治理、數據管理、企業模型、應用效能、高可靠性上做的絕對不比BAT差的,但這些行業有着國企的內斂、同時承擔了太多的安全、隱私、穩定要求,空有用戶和數據,卻很難對外發揮應有的作用,導致在整個信息技術行業內的話語權不高。

 

互聯網公司在對數據使用的靈活性、技術的前瞻性、經濟效益的引導性、適度容錯方面做的遠遠超出其他行業,所以行業之間的相互吸收和借鑑也是值得探討的。

 

新名詞的推出,要被大衆所能接受,在背後是要有話語權支撐的,而目的當然只有利益了,也不排除個別技術人員自己美好的想法和初衷。

 

回到正文,不管怎麼說,數據中臺這個概念已逐步火了起來,但數據中臺是什麼?

 

二、數據中臺

 

1、普遍理解的概念

 

 

1)數據中臺是聚合和治理跨域數據,將數據抽象封裝成服務,提供給前臺以業務價值的邏輯概念。

 

2)數據中臺是一套可持續“讓企業的數據用起來”的機制,一種戰略選擇和組織形式,是依據企業特有的業務模式和組織架構,通過有形的產品和實施方法論支撐,構建一套持續不斷把數據變成資產並服務於業務的機制。

 

3)數據中臺連接數據前臺和後臺,突破數據侷限,爲企業提供更靈活、高效、低成本的數據分析挖掘服務,避免企業爲滿足具體某部門某種數據分析需求而投放大量高成本、重複性的數據開發成本。

 

4)數據中臺是指通過數據技術,對海量數據進行採集、計算、存儲、加工,同時統一標準和口徑。數據中臺把數據統一之後,會形成標準數據,再進行存儲,形成大數據資產層,進而爲客戶提供高效服務。

 

5)數據中臺,包括平臺、工具、數據、組織、流程、規範等一切與企業數據資產如何用起來所相關的。

 

以上概念是從互聯網上搜索並拷貝出來的,總的來說中臺也好,數據中臺也好,還缺乏一個標準的定義,僅從字面上理解,數據中臺是解決如何用好數據的問題。

 

既然是概念,數據中臺也被賦予了很多擴大的外延,也上升到了數據的採集、計算、存儲、加工和數據治理等方面,這就和傳統的大數據平臺在功能和作用上產生了很大的重疊;而大數據平臺又是從數據倉庫發展起來的。那到底這三者的關係是怎麼樣的呢?

 

2、數據倉庫、大數據平臺、數據中臺

 

 

本人斷斷續續從事數據倉庫行業約有五六年經驗,完整的負責大數據平臺的整體設計架構和項目實施也有四五年經驗,見證了從傳統數據倉庫轉型到大數據平臺的全歷程。

 

包括第一個MPP數據集市、第一個Hadoop集羣項目、第一個流式數據處理項目,第一個完整的大數據平臺的融合和構建,混搭式大數據平臺的融合構建,大數據平臺的遷移等等。

 

我所經歷的大數據平臺從規模說大不大說小不小,每天處理數據量將近20T(實時處理月10T左右),總集羣約300臺(其中Hadoop節點約200臺),總容量約8P,實際使用容量約5P;包括了從數據倉庫到大數據平臺數據模型的重構,數據模型的拓展;也包括了大數據平臺提供各種對內應用的規劃,和向外提供大數據應用。

 

因此對數據倉庫和大數據平臺的優缺點、各自存在的問題、疑惑、發展方向,也算有一定的認知,包括對新生的數據中臺的發展方向,結合自己過往的經驗,談談自己的一些想法。

 

1)數據倉庫

 

按照傳統的定義,數據倉庫是一個面向主題的、集成的、相對穩定的、反映歷史變化的數據集合,用於支持管理決策。

 

從數據角度,數據倉庫更適合傳統的數據庫,離線採集,數據一般爲結構化的,每天處理數據量不易超過TB集,數據倉庫一般在數十T到幾百T以內,數據倉庫一般爲滿足內生的應用,滿足內部決策支持分析需求。

 

當然隨着數據倉庫數據採集的要求越來越高,數據倉庫本身也在不斷的改進,從單機的ETL到集羣的ETL,從傳統的小機+DB,向PC服務器+分佈式DB拓展,數據治理也逐漸增強,從元數據管理到數據質量管理,再到數據運維管控和數據安全管控。

 

但其實數據倉庫給企業留下的最大財富是企業數據模型,這些模型隨着前端業務系統的發展變化,不斷變革,不斷追加,不斷豐富和完善,即使系統不再了,也可以在短期內快速重建起來,這也是大數據平臺能夠快速建設起來的一個重要原因。

 

2)大數據平臺

 

大數據平臺則是指以處理海量數據存儲、計算及流數據實時計算等場景爲主的一套基礎設施,包括了統一的數據採集中心、數據計算和存儲中心、數據治理中心、運維管控中心、開放共享中心和應用中心。

 

大數據平臺之所以能夠建設起來,不外乎內因和外因,外因是棱鏡門事件帶來的去IOE要求、外部硬件的變革和分佈式開源技術的湧現,另外一篇《去IOE or not》已有闡述,不再贅述;內因是非結構化、實時數據和海量數據的計算和存儲壓力,企業也寄希望從大數據平臺除了滿足對內需求,也能夠實現一定的對外收益。

 

大數據平臺的建設出發點是節約投資降低成本,但實際上無論從硬件投資還是從軟件開發上都遠遠超過數據倉庫的建設,大量的硬件和各種開源技術的組合,增加了研發的難度、調測部署的週期、運維的複雜度,人力上的投入已是最初的幾倍;還有很多技術上的困難也非一朝一夕能夠突破,但無論如何大數據平臺還是建設起來了,人員能力也在不斷成長。

 

大數據平臺解決了海量數據、實時數據的計算和存儲,也基於原來的企業數據模型實現了重構,但也面臨着一系列的問題。

 

首先是數據的應用問題,無論是數據倉庫還是大數據平臺,裏面包含了接口層數據、存儲層數據、輕度彙總層、重度彙總層、模型層數據、報表層數據等等,各種各樣的表有成千上萬,這些表有的是中間處理過程,有些是一次性的報表,不同表之間的數據一致性和口徑也會不同,而且不同的表不同的字段對數據安全要求級別也不同。

 

此外還要考慮多租戶的資源安全管理,如何讓內部開發者快速獲取所需的數據資產目錄,如何閱讀相關數據的來龍去脈,如何快速的實現開發,這些在大數據平臺建設初期沒有考慮周全。

 

另外一個問題是對外應用,隨着大數據平臺的應用建設,每一個對外應用都採用單一的數據庫加單一應用建設模式,獨立考慮網絡安全、數據安全、共享安全,逐漸又走向了煙囪似的開發道路。

 

3)數據中臺

 

數據倉庫實現了企業數據模型的構建,大數據平臺解決了海量、實時數據的計算和存儲問題,數據中臺要解決什麼呢?數據如何安全的、快速的、最小權限的、且能夠溯源的被探測和快速應用的問題。

 

數據中臺不應該被過度的承載平臺的計算、存儲、加工任務,而是應該放在解決企業邏輯模型的搭建和存儲、數據標準的建立、數據目錄的梳理、數據安全的界定、數據資產的開放,知識圖譜的構建。

 

通過一系列工具、組織、流程、規範,實現數據前臺和後臺的連接,突破數據侷限,爲企業提供更靈活、高效、低成本的數據分析挖掘服務,避免企業爲滿足具體某部門某種數據分析需求而投放大量高成本、重複性的數據開發成本。

 

厚平臺,大中臺,小前臺;沒有基礎厚實笨重的大數據平臺,是不可能構建數據能力強大、功能強大的數據中臺的;沒有大數據中臺,要迅速搭建小快靈的小前臺也只是理想化的。

 

我想這纔是數據中臺的初衷。

 

三、總結性架構圖

 

後文是對數據倉庫、大數據平臺、數據中臺的一些總結性的架構材料,也是對自己這些年來的一些彙總和思考吧,看懂了前面的文字,後面的各種架構圖也就無需贅述了。

 

1、數據倉庫

 

 

 

數據倉庫硬件架構

 

數據倉庫功能架構

 

數據倉庫技術架構

 

下面的Hadoop平臺硬件架構,主要是爲了解決海量離線數據的計算和存儲,在Hadoop集羣中實現明細數據、彙總數據存儲,在mysql中實現報表數據存儲。

 

第一個Hadoop平臺硬件架構

 

主要是爲了解決海量實時數據的流式採集和計算,在Hadoop集羣中實現明細數據、彙總數據存儲,在mysql中實現報表數據存儲;並通過實時事件處理集羣實現流式事件的匹配。

 

第一個流式處理平臺硬件架構

 

2、大數據平臺

 

 

對於大數據平臺各種軟硬件的各種組件的規劃:

大數據平臺系統規劃

 

大數據平臺系統定位

 

大數據平臺邏輯部署架構

 

大數據平臺功能視圖

 

大數據平臺數據流向

 

大數據平臺對內硬件架構

 

大數據平臺整體硬件架構

 

3、數據中臺

 

 

數據中臺整體架構

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章