數據中臺到底是什麼?

阿里提出了“大中臺,小前臺”,其中臺事業部包括搜索事業部、共享業務平臺、數據技術及產品部,數據技術及產品部應是數據中臺建設的核心部門。

那麼,數據中臺到底是什麼?具體包含哪些內容?跟大數據平臺是什麼關係?在架構層面是怎麼體現的?數據中臺跟產品又有什麼關係?

阿里數據技術及產品部的掌門提倒了數據中臺的具體含義,這裏引用他說的話:

“很多人會把數據比作“石油”,馬老師(馬雲)也說過,阿里巴巴要成爲全球電子商務的“水電煤”。我們現在搭建的數據中臺,就是希望扮演“發電廠”的角色。”

“我們知道,電力的發展可以分爲幾個階段,最開始是一些有能力的企業自己發電,後來出現新的工業產能,有的企業電用不掉,有的卻不夠用,這時候國家機構就出來了,會去搭建國家級的電網,不管是核能發電,還是風力發電、水力發電,最大程度地保障不同羣體的用電需求。”

“我們數據中臺也是這樣一個運轉思路,我們落到實處是一個倒三角形,從下往上分爲四個部分——”

“第一是數據技術。沒有數據中臺的時候,不管是阿里內部還是各商家,大家都有自己的數據中心、機房、小數據庫。但當數據積累到一定體量後,這方面的成本會非常高,而且數據之間的質量和標準不一樣,會導致效率不高等問題。因此,我們需要通過數據技術,對海量數據進行採集、計算、存儲、加工,同時統一標準和口徑。”

“第二是數據資產。數據中臺把阿里系的數據統一之後,會形成標準數據,再進行存儲,形成大數據資產層,進而保證爲集團各業務和商家提供高效服務。”

“第三和第四都是數據服務,包括服務商家和服務小二。例如生意參謀和阿里指數,就是數據中臺中面向商家端提供的數據服務。”

“數據中臺服務阿里,說白了更多是在爲各位商家服務。平臺會確保大家在使用數據的過程中,口徑、標準、時效性、效率都有保障,能有更高的可靠性和穩定性。”

以上說得好像都對,但邏輯上有些是無法自洽的,比如這裏的數據技術跟阿里雲的數據技術是什麼關係?數據中臺要不要承擔hadoop/ETL這類平臺和工具的研發?生意參謀是個端到端的產品,似乎不能劃爲數據中臺?

當然,從職能看,作爲中颱部門的確需要基於產品直接服務一線客戶,而不是往後退,這也是以前筆者對於數據中臺最大的困惑,一直在想這個數據中臺的部門績效該如何定呢?沒有業務的滋養中臺如何迭代優化呢,阿里算是解惑了。

但如果把直接的產品當成中臺顯然是不合理的,阿里提了數據中臺,忙壞的倒可能是那些做數據架構和數據管理的,因爲架構講究邏輯嚴密,本質和邊界必須定義清楚,沒有歧義,否則做事就會很茫然,不知道該怎麼入手。

比如哪天領導問你,我們企業的數據中臺有沒有,要向阿里學習啊,有了清晰的概念你就可以做映射了,否則就會顯得手足無措,這種事情其實很多。

筆者的企業最近在做IT規劃,很多人就對數據中臺要帶一些產品職能有異議,記得以前筆者還把營銷平臺當成中臺,號稱也是賦能所有營銷人員的,這就是概念不清造成的問題。

說來也奇怪,網上很難找到數據中臺的更科學解釋,能找到的大多也不夠清晰,與大數據平臺有千絲萬縷的關係,筆者最近正好在思考這個問題,特此分享於你,當然仁者見仁,智者見智了。

所謂數據中臺,即實現數據的分層與水平解耦,沉澱公共的數據能力,筆者認爲可分爲三層,數據模型、數據服務與數據開發,通過數據建模實現跨域數據整合和知識沉澱,通過數據服務實現對於數據的封裝和開放,快速、靈活滿足上層應用的要求,通過數據開發工具滿足個性化數據和應用的需要,見下圖(以某運營商爲例):

1、數據模型

數據模型是分層次的,以前叫作數據倉庫模型,筆者這裏概括爲三層,基礎模型一般是關係建模,主要實現數據的標準化,我們叫作“書同文、車同軌”,融合模型一般是維度建模,主要實現跨越數據的整合,整合的形式可以是彙總、關聯,也包括解析,挖掘模型其實是偏應用的,但如果用的人多了,你也可以把挖掘模型作爲企業的知識沉澱到中臺,比如離網挽留的模型具有很大的共性,就應該有人把它規整到中臺模型,以便開放給其它人使用,中臺的中是相對的,沒有絕對的標準。

2、數據服務

將數據模型按照應用要求做了服務封裝,就構成了數據服務,這個跟業務中臺中的服務概念是完全相同的,只是數據封裝比一般的功能封裝要難一點,畢竟OLTP功能的變化有限,而數據分析受市場因素的影響很大,變化更快,導致服務封裝的難度變大。

隨着企業大數據運營的深入,各類大數據應用層出不窮,對於數據服務的需求非常迫切,大數據如果不服務化,就無法規模化,比如浙江移動封裝了客戶洞察、位置洞察、營銷管理、終端洞察、金融徵信等各種服務共計幾百個,每月調用量超過億次,靈活的滿足了內外大數據服務的要求。

3、數據開發

但有數據模型和數據服務還是遠遠不夠的,因爲再好的現成數據和服務也往往無法滿足前端個性化的要求,這時候就得授人以魚不如授人以漁了,數據中臺的最後一層就是數據開發,其按照開發難度也分爲三個層次,最簡單的是提供標籤庫(DMP),用戶可以基於標籤的組裝快速形成營銷客戶羣,一般面向業務人員,其次是提供數據開發平臺,用戶可以基於該平臺訪問到所有的數據並進行可視化開發,一般面向SQL開發人員,最後就是提供應用環境和組件,讓技術人員可以自主打造個性化數據產品,以上層層遞進,滿足不同層次人員的要求。

對於標籤庫(DMP)到底是屬於SaaS還是PaaS是有爭議的,但標籤庫這類平臺顯然較生意參謀類產品更中臺一點,因爲其通用性更強,專有業務的特性不是非常明顯,筆者還是認爲可以歸爲中颱。

應該來講,數據開發中的組件,比如頁面組件、可視化組件什麼的,歸屬到業務中臺似乎更合理,但其實也要看企業的實際情況,哪裏用的多就可以歸屬到哪裏,沒有絕對的標準了。

以上劃分方式在邏輯上還是說得通的,但還有很多沒有考慮進來,比如算法服務、機器學習引擎、hadoop、MPP等等,筆者覺得算法服務應該屬於數據服務的一種類型,但h a d o o p、MPP、機器學習引擎更底層一點,應屬於私有云或公有云的範疇了,比如筆者看到阿里雲就提供了MaxCompute這類機器學習服務。

關於數據中臺的分層看似簡單,但筆者卻糾結了好久,很多邊界是模糊的,最近看的一本書提到,新的概念如果跟既有知識體系不相符,一定要努力搞清楚,不能人云亦云,只要能表達出自己的觀點,即使還是錯了,也有了被人家糾正的機會,對於事物理解的不深入,大多是不求甚解導致的概念不清的結果。

最近新零售很熱,各路大仙都出來詮釋新零售的概念,大家可以想想新零售到底是什麼?



鏈接:https://www.jianshu.com/p/f8a7c33709b3

參考 : http://solution.sequoiadb.com/cn/datamidend?renqun_youhua=717380

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章