數據中臺(介紹篇)

公司在弄數據中臺,所以結合實際去理解了下數據中臺,本文歸屬一寸HUI所有。@一寸HUI

數據中臺是什麼?

數據中臺是一套可持續“讓企業的數據用起來”的機制,是一種戰略選擇和組織形式,是依據企業特有的業務模式和組織架構,通過有形的產品和實施方法論支撐,構建的一套持續不斷把數據變成資產並服務於業務的機制。數據中臺是處於業務前臺和技術後臺的中間層,是對業務提供的數據能力的抽象和共享的過程,數據中臺通過將企業的數據變成數據資產,並提供數據能力組件和運行機制,形成聚合數據接入、集成、清洗加工、建模處理、挖掘分析,並以共享服務的方式將數據提供給業務端使用,從而與業務產生聯動,而後結合業務系統的數據生產能力,最終構建數據生產>消費>再生的閉環,通過這樣持續使用數據、產生智能、反哺業務從而實現數據變現的系統和機制。

數據來自於業務,並反哺業務,不斷循環迭代,實現數據可見、可用、可運營。通過數據中臺把數據變爲一種服務能力,既能提升管理、決策水平,又能直接支撐企業業務。數據中臺不僅僅是技術,也不僅僅是產品,而是一套完整的讓數據用起來的機制。既然是“機制”,就需要從企業戰略、組織、人才等方面來全方位地規劃和配合,而不能僅僅停留在工具和產品層面。

數據中臺通過數據技術,對海量數據進行採集、計算、存儲、加工,同時統一標準和口徑。數據中臺把數據統一之後,會形成標準數據,再進行存儲,形成大數據資產層,進而爲客戶提供高效服務。這些服務跟企業的業務有較強關聯性,是這個企業獨有且能複用的。

數據中臺VS數倉和大數據平臺

1.數據中臺VS數據倉庫

數據倉庫的主要場景是支持管理決策和業務分析,而數據中臺則是將數據服務化之後提供給業務系統,目標是將數據能力滲透到各個業務環節,不限於決策分析類場景。數據中臺持續不斷地將數據進行資產化、價值化並應用到業務,而且關注數據價值的運營。

數據中臺建設包含數據體系建設,也就是數據中臺包含數據倉庫的完整內容,數據中臺將企業數據倉庫建設的投入價值進行最大化,以加快數據賦能業務的速度,爲業務提供速度更快、更多樣的數據服務。數據中臺也可以將已建好的數據倉庫當成數據源,對接已有數據建設成果,避免重複建設。當然也可以基於數據中臺提供的能力,通過匯聚、加工、治理各類數據源,構建全新的離線或實時數據倉庫。

2.數據中臺vs大數據平臺

大數據基礎能力層:Hadoop、Spark、Hive、HBase、Flume、Sqoop、Kafka、Elasticsearch等。在大數據組件上搭建的ETL流水線,包括數據分析、機器學習程序。數據治理系統。數據倉庫系統。數據可視化系統。

數據中臺應該是大數據平臺的一個超集。在大數據平臺的基礎之上,數據中臺還應該提供下面的系統功能:

  • 全局的數據應用資產管理
  • 全局的數據治理機制
  • 自助的、多租戶的數據應用開發及發佈
  • 數據應用運維
  • 數據應用集成
  • 數據即服務,模型即服務
  • 數據能力共享管理
  • 完善的運營指標

數據中臺的價值是什麼?

1.數據中臺是企業數據化建設的基礎設施

數據中臺解決了企業全域數據匯聚的問題,打通以往的數據孤島,沉澱數據資產,實現數據之間的價值共通,可基於數據中臺滿足複雜的數據應用場景。

2.提升數據質量

數據中臺基於Onedata方法論構建統一的公共層,保證了源頭數據的一致性,且實現數據按照統一口徑只加工一次,實現全局指標、標籤的統一,大大提高數據質量。

3.建立數據標準

數據中臺建設會促使企業還要建設數據標準或規範,比如數據接入規範、數據集成規範、數據存儲規範、數據處理規範、數據使用權限規範、數據共享規範、數據銷燬規範、數據安全規範等。

這些標準都是數據中臺建設階段也需要建設的體系。有數據標準/規範體系護航,數據中臺才能更好的運轉;也只有依託數據中臺,數據標準才能更好的執行和落地。

4.節約企業數據應用成本

基於數據中臺的元數據管理的數據血緣,可以實現數據投入產出比的評估,及時發現並下線低ROI的數據,也避免數據重複加工。由此降低數據的研發、存儲和計算成本,降低企業數據應用成本。

下面分別從兩個角度去闡述所產生的降本和增效價值:

  • 降本:數據中臺通過複用數據能力組建,快速完成數據鏈路的搭建,減少重複研發的人力和維護成本;
  • 增效:通過快速複用組建完成數據鏈路搭建,讓數據從接入>加工>使用的整個週期縮短,減少業務端的數據獲取等待時延,爲業務方贏得更多的展業時間和機會。

通過提供賦能於具體業務場景的數據應用,幫助業務端更精準的發現客戶、分析客戶等,用數據滋養各線業務,使整個業務運營過程體驗更友好和高效,並縮短運營週期。

5.健全各部門協作機制

數據中臺承擔着一定的實現企業戰略目標的使命,數據中臺的建設過程勢必需要對應的組織和制度來支撐中臺的建設和運營。數據中臺這種體系化工程將橫向拉通企業數據的相關方,包括中臺建設團隊、中臺運維團隊、數據產品經理團隊、數據運營團隊等,形成企業真正的數據組織。利用系統化的解決方案配合一定的管理機制,實現業務人員、數據研發、產品經理、數據分析師等角色的高效協同,提升各角色之間的協作效率。

數據中臺要解決什麼問題?

1.指標口徑不一致

通常表現在3各方面:業務口徑不一致、計算邏輯不一致、數據來源不一致。

業務口徑不一致:業務口徑不一致的指標,應該要有不同的標識去區分,比如上面提到的銷售額這一指標,明明口徑是不一致的,但卻沒有區分,容易讓業務誤解。

計算邏輯不一致:業務口徑的描述往往是一段話,但對於一些計算邏輯比價複雜的指標,一段話通常是描述不清楚的,如果碰巧兩個相同業務口徑的指標是不同的數據研發實現的,極有可能會出現計算邏輯不一致的情況。

數據來源不一致:對於部分指標,有多個數據源可供選擇,如果數據源正好有些細微差異不被發現時,即使加工邏輯一樣,也有可能結果不一致。另外,實時數據和離線數據也會有一定差異。

因此,要實現一致性,就要確保對同一個指標,只有一個業務口徑,只加工一次,且數據來源必須一致。

2.煙囪式建設數據平臺,大量源被浪費,響應速度慢

主要在於煙囪式的開發模式,使得數據複用性低,導致大量重複邏輯代碼的研發,影響需求響應速度。

比如,兩個指標都需要對同一份原始數據進行清洗,原則上來說,只用一個任務對原始數據做清洗,產出一張明細表,另一個指標開發時,便可直接引用已經清洗好的明細表,這樣便可節省一個清洗邏輯的研發工作量。但現實往往是對同一份原始數據做了兩次清洗。因此,要解決需求響應速度慢的問題,就要提升數據的複用性,確保相同數據只加工一次,實現數據的共享。

3.取數效率低

主要表現在兩個方面,一方面是找不到數據,另一方面是取不到數據。要解決找不到數據的問題,就要構建企業數據資產目錄,讓數據使用者快速找到並理解數據。取不到數據的主要是非技術人員不會寫SQL去提取數據,所以可以爲其提供自助取數工具,使其簡單快速的獲取數據。

4.數據質量低

面對業務已經沉澱的大量數據,逐步形成了企業的數據資產。而這些數據資產如何成爲可持續使用的,爲企業帶來價值的數據,需要數據治理進行提升數據質量,比如設計數據質量校驗的規則和使用流程,設計數據管控權限,數據如何安全輸出及共享的設計等,如何在整體上發揮出數據的協同效應,爲業務提供更高價值的數據服務鏈路,數據中臺可以將這些數據能力整合到一起,對業務端提供穩定的持續的服務能力。

根據上面的問題分析,數據中臺就是要解決找數據,理解數據、問題評估、取數及可視化展現這五個問題。整個平臺的故事也是圍繞這個五個點。從根本上解決:

找數:數據從什麼地方來到什麼地方去,將數據和業務過程結合起來,實現數據的快速查詢

理解數據:通過數據的血緣關係,數據關聯關係及數據的說明信息,讓數據開發人員,業務人員快速理解數據

問題評估:數據分析人員拿到需求,可以通過該平臺實現問題的自動評估,大大提高數據分析效率

取數:用戶可以不再關心數據的來源,不再擔心數據的一致性,不再依賴RD的排期開發。通過所選即所得的方式,滿足了用戶對業務核心指標的二次加工、報表和取數訴求

數據可視化:依託於我們的BI可視化系統和數據中臺的打通,數據分析人員可以快速的將數據中臺創建的數據模型快速的轉換成可視化報表。

數據中臺要做什麼?

數據中臺是企業數字化運營的統一數據能力平臺,能夠按照規範匯聚和治理全局數據,爲各個業務部門提供標準的數據能力和數據工具,同時在公司層面管理數據能力的抽象、共享和複用。數據中臺與傳統數據倉庫和大數據平臺的最根本差異,就是強調從工具和機制上支持對數據能力的全局抽象、共享和複用。應該說,數據中臺是建立在數據倉庫和大數據平臺之上的,讓業務部門可以更好、更有效率地使用數據的運營管理層。

數據中臺通過提供工具、流程和方法論,實現數據能力的全局抽象、共享和複用,賦能業務部門,提高實現數據價值的效率。數據中臺需要具備數據匯聚整合、數據提純加工、數據服務可視化、數據價值變現4個核心能力,讓企業員工、客戶、夥伴能夠方便地應用數據。

第一,實現這些目標必須有相應的數據能力,也就是從數據中產生價值的能力。

第二,要實現這些目標,必須完成全局的數據匯聚和治理。

第三,企業必須高效完成從彙總好的數據到價值的轉換,需要進行數據能力的抽象,然後實現能力的共享和複用。

第四,在實現數據能力的共享和複用的過程中,需要協調複用和效率的矛盾。

針對數據中臺需要構建的目標,數據中臺需要實現如下功能和服務:

1.構建服務和系統

1.構建全局一致的指標詞典,實現指標體系化管理

按照數倉主題域的方式對所有指標統一命名、分類,明確指標口徑、數據來源、計算邏輯,產出企業的指標詞典,由專門團隊來負責指標口徑的管控;

設計上線方便業務人員查詢的指標詞典管理系統,所有的數據產品、數據報表都引用指標系統的口徑,當鼠標Hover到某個指標上時,浮現該指標的指標口徑定義。

2.統一數倉建模,構建全局一直的公共層,提升數據複用性

制定統一的數倉建模規範,在模型設計階段,強制相同聚合粒度的模型,度量不能重複,保證相同粒度的指標、度量只加工一次;建設數據地圖,方便數據研發能快速查找並準確理解數據。

3.提供企業數據地圖和自助取數系統

數據中臺構建了企業數據地圖,數據使用者可通過數據地圖快速瞭解企業當前有哪些數據,在哪張表裏可以看到,關聯了哪些指標和維度;

非技術人員可通過自主取數工具,選取指標,勾選指標的可分析維度,添加篩選條件,點擊查詢,就可以方便獲取數據。

4.配置數據質量稽覈規則和數據預警

通過配置數據質量稽覈規則和數據預警,對數據一致性、完整性、正確性和及時性進行監控,確保第一時間發現、恢復、通知數據問題。

5.上線數據成本治理系統

數據治理系統可實現表維度、任務維度、應用維度的全面數據治理。比如一個30天內沒有被訪問的報表,我們認爲其產出價值較低,這時我們可以結合這個報表的所有上游表和下游表產出任務,計算這張表的加工成本,有了價值和成本,便可計算出ROI,根據RO評估,實現低價值報表的及時發現和下線。

針對如上的一些功能和服務,數據中臺需要整合四個核心的功能:

2.整合數據中臺核心功能

1.匯聚整合

數據中臺需要對數據進行整合和完善,提供適用、適配、成熟、完善的一站式大數據平臺工具,在簡便有效的基礎上,實現數據採集、交換等任務配置以及監控管理。數據中臺必須具備數據集成與運營方面的能力,能夠接入、轉換、寫入或緩存企業內外部多種來源的數據,協助不同部門和團隊的數據使用者更好地定位數據、理解數據。

2.提純加工

數據就像石油,需要經過提純加工才能使用,這個過程就是數據資產化。企業需要完整的數據資產體系,圍繞着能給業務帶來價值的數據資產進行建設,推動業務數據向數據資產的轉化。

數據中臺必須連通全域數據,通過統一的數據標準和質量體系,建設提純加工後的標準數據資產體系,以滿足企業業務對數據的需求。

3.服務可視化

爲了儘快讓數據用起來,數據中臺必須提供便捷、快速的數據服務能力,讓相關人員能夠迅速開發數據應用,支持數據資產場景化能力的快速輸出,以響應客戶的動態需求。多數企業還期待數據中臺可以提供數據化運營平臺,幫助企業快速實現數據資產的可視化分析,提供包括實時流數據分析、預測分析、機器學習等更爲高級的服務,爲企業數據化運營賦能。數據資產必須服務於業務分析才能解決企業在數據洞察方面的短板,實現與業務的緊密結合。

4.價值變現

數據中臺通過打通企業數據,提供以前單個部門或者單個業務單元無法提供的數據服務能力,以實現數據的更大價值變現。企業期待數據中臺能提升跨部門的普適性業務價值能力,更好地管理數據應用,將數據洞察變成直接驅動業務行動的核心動能,跨業務場景推進數據實踐。

什麼企業合適構建數據中臺?

數據中臺不是萬能的,也不是所有的企業都合適構建數據中臺,有興趣可以看看這篇文章迷信中臺是一種病,得治

企業在選擇是否構建數據中臺的時,可以從以下幾個方面思考:

首先,看企業是否有一定的信息基礎,是否實現了業務數據化的過程,有了一定的數據沉澱,數據中臺,顧名思義,數據是基礎,畢竟巧婦難爲無米之炊;

其次,企業是否存在業務數據孤島,是否有需要整合各個業務系統的數據,進行關聯分析的需求,如果有,需要通過構建數據中臺,打通數據孤島,整合各業務系統數據,滿足關聯分析的需求。

最後,在日常的數據使用過程中是否遇到指標口徑不一致、需求響應速度慢、數據質量差、數據成本高等痛點。

如果滿足前兩個條件,且在數據應用中存在以上所述的一些痛點,那建議你可以考慮將數據中臺項目提上日程了。

參考:

數據中臺建設系列篇:什麼樣的企業適合建設數據中臺
數據中臺建設系列篇:什麼是數據中臺?
數據中臺建設(規劃篇)
基於Apache doris怎麼構建數據中臺(一)-什麼是數據中臺
《雲原生數據中臺:架構、方法論與實踐》
《數據中臺:讓數據用起來》

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章