袋鼠雲數據中臺專欄2.0 | 數據中臺綜述:三個維度看數據中臺

一、關於數據中臺的9個名詞

數據中臺是什麼,當前有很多解釋,但是它一定不是哈姆雷特。

新興的事物總會被各種解讀,但是當人們足夠熟悉了以後,總會有一個公允的定義得到廣泛的認可和接受。這個過程中,最可以用於度量的便是「功能定義」與「業務價值」。袋鼠雲認爲,數據中臺表現出的最主要特徵是一種企業數據化體系的架構,而且就目前而言,這種架構是最爲有效的一種架構。

目前很多人把數據中臺直接等同於企業數據化,AI和大數據,或者是直接的業務價值,甚至企業變革(比如新零售)。這些都是不準確的,數據中臺的價值被過於放大,數據中臺,數據應用,直接業務價值應當給予分層討論。

下面對目前使用的名詞做一個統一羅列,然後再開展討論:

數據源

當數據還在應用界面的時候,我們稱這些數據是數據界面的數據源。數據源存儲在一個個的數據庫,文件和流中,由各種應用,中間件和物聯網設備所產生。

數據資產

數據源中的數據經過拷貝進入到數據界面,存儲在ODS層後,再經過基本的數據清洗後進入DWD和DWS層,這些數據稱爲數據資產。ODS層的數據也可以納入數據資產範圍。

數據中臺

數據界面的一種架構,職能定位是所有數據的匯聚之所,以及爲上層數據應用提供支撐的平臺基礎。

數據應用

在數據中臺提供的數據基礎上,進行各種數據計算,得出的結果可以直接爲業務界面和應用界面所使用,使用數據的過程也是數據對業務發揮價值的過程。

數據質量

凡是數據內容與數據模型約定不一致,或者不符合現實情況的;凡是同樣的客觀事實因爲被不相同數據模型定義和描述而產生內容衝突的,都可以視爲數據質量問題。我們這裏的數據質量更多的是指數據源的數據質量。

數據治理

這裏特指爲了解決數據資源的數據質量問題而採取的種種方法和措施,目的是提升數據資源的數據質量,從而讓數據資源在成爲數據資產後可以更好的爲數據應用所使用。

業務界面

企業的客觀業務。

應用界面

大部分爲傳統信息化建設的內容和成果,包含各種軟硬件系統,操作系統,數據庫,網絡等等。

數據界面

將數據從應用界面複製出來,然後通過數據計算,將數據結果回饋到業務界面和應用界面從而產生業務價值。

二、

本篇文章重點闡述對數據中臺的定位和理解:

2.1 數據中臺是一次數據技術上的整體提升

曾經有人說“大數據技術從擁有大數據的地方產生”,筆者深以爲然。互聯網行業的興起讓我們真正見識到了什麼是海量的數據,而對海量數據的應用需求則讓大數據處理技術逐步成熟和完善。

然而在傳統企業中,很長一段時間內,傳統數據倉庫技術和大數據技術應用一直處於並行的狀態:傳統數倉處理結構化數據,大數據平臺存儲非結構化和半結構化數據。

歸集這一狀態的原因:一方面是傳統數據倉庫的應用十分成熟,另一方面是開源大數據的使用門檻較高。現在阿里雲的數加平臺,袋鼠雲的數棧平臺等都能很好地解決這個問題。

基於數加、數棧等成熟的大數據平臺產品:

  • 一方面,企業可以順利高效地實現從傳統數據倉庫技術到大數據技術架構的迭代升級;

  • 另一方面,數棧等產品保證了產品的商業化應用體驗:所有的操作界面都是呈現在瀏覽器中,所有的數據計算引擎完全被操作界面屏蔽,所有的指令都是通過準SQL語法及簡單拖拉拽的操作來完成。

這是一次完整的數據技術平臺的提升,也標誌着大數據平臺(分佈式數據倉庫)的商用化。

相比於傳統數據倉庫,當前的分佈式數據倉庫,數據存儲能力至少提升了一到兩個數量級,數據處理能力也從傳統的結構化數據擴展到半結構化和非結構化數據。在功能上,除了很多企業因爲原有的IT資產而無法立刻廢棄已有傳統數據倉庫的情況,如果企業要從0建設企業數據倉庫的話,我們有100個理由告訴企業要選購新型的一站式、可視化的分佈式數據倉庫,而不採用那些耳熟能詳的傳統數據倉庫產品。

2.2 數據中臺是一種架構

與其說數據中臺是一次技術的革新與進步,不如說數據中臺是企業數據化的一個整體架構。

2.2.1. 數據中臺是全域數據的匯聚之地(從數據源拿數據)

如果我們在業務界面發現的每一個“0”、“1”數據,都能夠在數據中臺中找到,那麼數據中臺的建設就成功了一大半了。數據中臺的最主要目的就是將企業業務範圍內可以觸碰到的一切數據都能夠存儲在中臺之中。

對於規模越大的企業這個難度就越大,因爲數據的完整匯聚,一方面是技術、成本的困難,另一方面是管理的困難。但是,相對應的,實現數據的完整匯聚,產生的價值也對應更大,尤其是大型集團型企業,打破部門牆,業務線壁壘,然後能將所有的數據匯聚,本身就會產生巨大的價值。

2.2.2. 數據中臺對數據源的數據質量提供分析和監控報告

當所有數據進行數據中臺ODS層的時候,我們便可以對所掌握的來自各數據源的數據,進行全面和深入的數據質量分析。比如基礎數據的一致性;業務數據中,數據內容與模型是否匹配;數據是否不完整或者數據缺失等問題。數據源的數據質量分析報告可以有效的推動企業數據治理項目,並作爲數據治理項目的效果評估依據。

2.2.3. 數據中臺擁有完整數據模型

所有進入數據中臺的數據,將被裝入一個完整的數據模型中。OneData的定義也就是由此而來。這個完整的數據模型,保障了數據的完整性、一致性和可用性。這也是數據中臺最終讓數據應用得以快速高效開發的基礎。

2.2.4. 數據中臺向上支持數據應用

數據中臺的最終目的還是要有效支撐數據應用。

所有數據應用的數據開發都會在數據中臺中進行,並將開發的結果吐到ADS層。最細粒度的開發結果就是指標、標籤和算法函數。在這些成果的基礎上,我們會構建一個相對友好的人機或者是機機界面。人機界面一般是BI產品拖拽產生或者是定製化開發完成,而機機的界面則是數據API接口。

基於我們近兩年的實踐評估,數據中臺的構建能夠讓絕大部分數據需求得以實現,使得每個數據應用的實現效率提升50%以上(節約了數據採集,數據處理的時間,只需要關注數據應用開發)。

2.3 數據中臺是企業數字化驅動雙引擎

如上所述的數據中臺,看起來,只比傳統的數據倉庫、數據中心、數據湖略有進步。除了技術層面的大幅提升外,也許只有數據治理分析算是一個亮點了。

那麼數據中臺是不是隻是這樣呢?

爲什麼傳統的架構沒有最終驅動企業數據化的成功轉型呢?

筆者在企業數據化建設三範式裏表述了自己的觀點。所以希望通過數據化驅動引擎的構建來驅動企業數據化建設,相信後續雙引擎的建立也會成爲數據中臺與傳統數據中心建設的真正區分點。也希望這兩個引擎後續成爲數據中臺建設的標配產品:

1. 企業數據化規劃引擎

企業數據化規劃引擎由幾個部分組成:

  • 第一,企業數據資源盤點,把企業所有的數據資料理清楚。

  • 第二,企業業務場景描述,企業的業務是什麼,有多少職能,有多少業務場景;

  • 第三,企業數據場景描述,直接描述數據應用場景,展現數據價值;

  • 第四,企業指標體系,企業實體標籤體系,企業數據服務算法函數。最終把這四項進行貫通和評估,就形成了企業數據化的規劃引擎。企業數據化建設可以依照規劃內容,逐步建設。

2. 企業數據化運營組織

當前的企業數據化建設,離不開數據價值產生道路上最後一米的建設:即把最終的數據,給到業務部門,並且讓業務部門用熟悉,用好數據。

這個是在傳統企業中不可避免,也不能忽視的問題。當我們看着衆多的業務參數和各種率的時候,難免心生怨念,而覺得當前的業務也是可以運轉的。數據運營組織的最大職責就是拉通數據和業務價值。讓業務部門用好數據,然後再從業務部門收集需求,對效果一般的應用場景找出問題原因,進行二次,三次迭代。

後記

後續筆者會從數據中臺的技術層面,數據層面,應用支撐層面和數據治理層面進行詳細表述,敬請期待。

袋鼠雲數據中臺專欄V2.0第六期:

數據中臺綜述 — 三個維度看數據中臺

敬請期待!

本文作者

張旭 (花名:老虎)

袋鼠雲副總裁,解決方案與交付負責人

原用友股份應用集成業務部總經理,主數據管理專家、業務創新帶頭人

曾主導數十家國內500強企業的數字化建設原型項目的規劃與落地

擁有十多年企業服務和項目管理實施經驗

關於袋鼠雲

袋鼠雲是企業數據化整體解決方案提供商,是數據中臺架構倡導者、引領者,通過打通數據供應鏈,構建企業數據化驅動引擎,加速企業數據化進程,讓數據成爲企業核心競爭力。

數據智能,讓未來變成現在

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章