如何從零開始建設數據中臺？

原創

2020-05-12 14:35

數據中臺對於許多傳統企業而言，依舊是很陌生的概念。

如何從零開始建設數據中臺？

我們把它簡化爲一個方程式，數據中臺：正確的人+正確的工具+正確的事=降本增效，其中，三個要素缺一不可。

正確的人

數據中臺在國內有完整實踐的企業不多，相關的人才也相對較少。企業在選擇數據中臺時，需要有方法論、實踐經驗去指導，以避免從零摸索帶來大量人力物力的浪費。這也是企業在選擇服務商時需要留意的。

正確的工具

在這裏主要指的是狹義上的數據中臺產品。市面上的產品五花八門，數據中臺產品各型各樣，如何選擇非常關鍵。

正確的事

數據中臺不是擺設，並不是說搭建一個產品意義的數據中臺，企業就完成數字化轉型了。數據中臺最終還是要爲業務服務。我們要用數據中臺做什麼，解決什麼業務痛點，需要考慮清楚。

這個方程式最終導向了我們建設數據中臺的目的：爲企業帶來降本增效。“要麼給老闆省錢（降本），要麼給老闆掙錢（增效）”。

數據中臺的選型與構建

首先需要強調的是，在這裏我們分享的只是一般情況，不同企業、不同數據情況和不同需求，不可一概而論。不管黑貓白貓，能解決痛點的就是好貓。

數據中臺的底層是大數據架構，大數據架構如何去選型？

在架構選型時，成本、場景支持是我們考慮最關鍵的2個要素。

綜合實施週期、實施成本、是否支持實時計算、數據冗餘與數據一致性情況等因素，我們認爲Lambda架構成本相對適中，又能滿足實時計算和離線計算兩個場景。

當然，選擇Lambda架構也會不可避免地面臨數據冗餘的問題，而目前大部分傳統企業用到實時計算的場景偏少一些，相對來說產生的數據冗餘也較少，可以通過數據治理等方式解決。

底層之上是引擎，包括離線計算引擎和實時計算引擎，又應當如何去選型？

離線計算：三種離線計算引擎各有特點，可以綜合企業的數據情況和需求，選擇合適的計算引擎。

實時計算：在批處理+流處理上，Flink備受青睞，穩定性較好、吞吐量較大。一般來說推薦使用Flink。

在架構上層，則涉及到了：數據模型應如何設計？

數據模型是爲業務服務的。具體來說，就是把業務抽象化，提煉成數據模型，再通過數據解決業務問題。

建數據模型，會經歷業務建模、概念建模、邏輯建模和物理建模四個階段。

在模型選擇上，我們僅列舉兩種模型，星型模型與雪花模型。通常情況下，爲了能下游能更好地理解業務，快速提供數據服務，我們會採用空間換時間的方式，從而選擇星型模型；而在維度信息變化非常頻繁，或者數據存儲成本非常高的情況下，我們可以採用雪花模型。歸根到底，數據模型沒有好壞之分，只有能否解決業務問題。

最後需要強調，對於技術和模型的選擇，我們做了一些推薦和優劣勢的介紹，但技術和模型本身沒有對錯之分，適合自己的纔是最好的（能解決業務問題纔是最好的）。

我們把數據中臺的架構分爲三層，數據資產層、數據服務層、數據應用層。

這張圖從下往上看，首先通過數據治理、數據開發、藉助數據倉庫，把數據轉化爲可用的數據，即資產「數據資產化」；然後建立數據能力，把數據用起來，例如標籤工廠、模型分析等，即「資產服務化」；再通過智能化的場景給業務賦能，也就是「服務智能化」。

奇點雲創立三年來，數據中臺的實踐在零售、時尚、百購等行業相繼落地，在實踐經驗中，探索並檢驗出了數據中臺的“王道”：AI驅動的數據中臺。

所謂“AI驅動”，我們可以看到在架構中融入了獨創的“雲（智能）+端（感知）”的解決方案，從數據採集層的AIoT到數據服務層的算法服務、分析引擎再到頂部的數據智能應用，實現了“雲賦能端，端豐富雲”，既解決企業數據生產的問題，又解決企業數據使用的問題。

在“AI驅動的數據中臺”實踐中，奇點雲自研了一站式大數據智能服務平臺—DataSimba，其旨在爲企業提供全鏈路的產品+技術+方法論服務。

DataSimba核心模塊包括全域數據採集、數據開發、數據治理、數據資產管理、數據API、數據科學、數據質量、標籤工廠，可以幫助企業快速搭建安全、易用的數據中臺，最大化釋放價值，驅動業務增長與創新。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.