數據中臺(架構篇)

聲明:本文歸屬一寸HUI所有。@一寸HUI

在上一篇文章數據中臺(方法論篇)中主要介紹了建設數據中臺要建設哪些內容、建設的步驟以及建設過程中需要遵循一定的規範並符合公司的戰略。也提及到了阿里巴巴數據中臺的全景圖,有了上面的基礎,現在更能方便的理解數據中臺的架構了。先來回顧下數據中臺的概念。

數據中臺是一套可持續“讓企業的數據用起來”的機制,是一種戰略選擇和組織形式,是依據企業特有的業務模式和組織架構,通過有形的產品和實施方法論支撐,構建的一套持續不斷把數據變成資產並服務於業務的機制。數據中臺是處於業務前臺和技術後臺的中間層,是對業務提供的數據能力的抽象和共享的過程,數據中臺通過將企業的數據變成數據資產,並提供數據能力組件和運行機制,形成聚合數據接入、集成、清洗加工、建模處理、挖掘分析,並以共享服務的方式將數據提供給業務端使用,從而與業務產生聯動,而後結合業務系統的數據生產能力,最終構建數據生產>消費>再生的閉環,通過這樣持續使用數據、產生智能、反哺業務從而實現數據變現的系統和機制。數據中臺(介紹篇)

數據中臺功能定位

數據中臺的功能定位是完成公司內部數據能力的抽象、共享和複用,因此,數據中臺的架構必須圍繞這三個功能來設計。與傳統的大數據平臺不同,數據中臺搭建於大數據平臺及數據倉庫之上,將大數據平臺和數據倉庫所實現的功能以通用數據能力的形式提供給企業的所有部門。因此,單從功能上來講,大數據平臺實現具體的數據能力,數據倉庫是業務建模、數據治理髮生的地方,而數據中臺則需要把大數據平臺、數據倉庫的數據和接口組織起來,通過打通數據提升數據能力,通過共享提高全局使用效率。因此數據中臺的架構設計應該考慮如何有效地完成抽象、共享和複用的功能。

數據中臺的建設應該貫穿數據處理的全生命週期,即從原始數據到最後產生數據價值的整個流程,且整個流程都處於數據中臺的管理之下。下圖顯示了從原始數據到實現數據價值的完整流程,其中每一步都是數據中臺建設需要考慮的:數據發現/探索,數據採集/導入,數據建模/治理,數據轉換/分析,數據發現/探索,數據採集/導入,數據建模/治理,數據轉換/分析

數據中臺要做的就是把上述流程在全局標準化、規範化,讓這個流程產生的結果和能力能夠在全局共享和複用。

數據中臺的架構設計,其核心在於用全局統一的標準和規範來實現數據賦能,這與單一部門實現上述流程的側重點是不同的。在數據中臺的設計中,需要考慮如何靈活地支持數據能力的抽象,管理各種數據複用,確保它們都符合統一的數據規範和安全規則,同時又使各個部門能夠獨立演變屬於自己的數據,而不需要進行復雜的多部門協調。數據中臺應該能夠支持各個部門在一個統一平臺上完成上述流程中的所需功能,同時在發現有全局共享需要的時候,能夠方便地將特定的數據能力共享給全公司,並且在後續的演變中不會因爲協調的原因而拉長數據能力的演進過程。

數據中臺架構設計原則

面向未來:應該能夠很容易地將新出現的大數據、人工智能、機器學習應用和框架加入系統。新技術以前所未有的速度出現,如果數據中臺不能快速適應變化,各部門可能很快就會自己另起爐竈,形成新的應用及數據孤島。

需求驅動:數據中臺的存在是爲了更快、更好地滿足業務部門的需求,因此其架構設計應該以如何快速處理需求爲核心。

面向個體:系統的每個使用者面對的都是系統的一個方面,但是他們都應該能夠從系統中獲得他們需要的數據能力,自助完成他們的目標,達到最優的效率。

面向協作:考慮系統的每個使用者的行動如何影響整個系統的功能。個體用戶對系統的使用會以自適應的方式影響整個系統的演進,例如,多個用戶在有類似的數據能力需求時如何協同開發,我們的架構應該能清楚地掌握系統中核心元素之間的關係和連接。

面向變化:對於系統中所有的元素(用戶、數據、應用、資源),架構設計必須考慮其變化和生命週期。

容錯能力:對於數據中臺這樣複雜的系統,我們必須假設所有組件都有可能失敗或出錯。系統必須具備極強的容錯性以及在發生大多數錯誤時自動恢復的能力。

數據安全:數據越來越成爲一個公司的核心價值,數據中臺是公司數據處理和能力共享的核心組件,我們要假設所有的規則都有人違背,一定會有人試圖違規訪問數據。數據中臺應該能讓每個用戶都放心使用系統,而不用擔心會使系統意外崩潰。

不要重複造輪子:應該儘量避免重複開發系統功能組件,系統中的數據和能力要能高效安全地在各個部門之間共享。這意味着每個用戶在使用數據中臺的時候,都能夠對系統中的可用數據和能力有個全局視圖。

兼顧靈活性和易用性:作爲數據中臺,如果把所有組件都做得傻瓜化,雖然對於新手來說很容易上手,但是在功能和效率上會有一定限制;如果提供很多靈活的選項,則新手可能就會淹沒在複雜的系統配置中。必須在二者之間找到一個比較好的平衡。

數據中臺架構

要搭建一個企業級的數據中臺,是一個及其龐大的一個工程,涉及到很多的方面,我們先看一個數據中臺的架構圖,當然數據中臺的架構在每個企業都是不一樣的,要結合自己公司的業務場景纔是符合公司的數據中臺架構,下圖只是數據中臺架構圖的一個例子。


計算存儲平臺:爲數據中臺提供計算和存儲,存儲可以存儲結構化,半結構化,非結構化數據,計算有實時計算、離線計算,交互式計算,圖計算等

數據集成開發平臺:數據集成開發平臺能最高效地使用底層的組件和數據,提供從源數據到數據能力的轉換。數據集成平臺是數據中臺數據接入的入口。數據中臺本身幾乎不產生數據,所有數據來自於業務系統、日誌、文件、網絡等,這些數據分散在不同的網絡環境和存儲平臺中,難以利用,很難產生業務價值。數據集成是數據中臺必須提供的核心工具,把各種異構網絡、異構數據源的數據方便地採集到數據中臺中進行集中存儲,爲後續的加工建模做準備。數據集成方式一般有數據庫同步、埋點、網絡爬蟲、消息隊列等;從匯聚的時效性來分,有離線批量匯聚和實時採集,也有增量同步和全量同步。在數據集成的過程中一般會用到datax,flume,sqoop,canal等工具。

數據基礎能力平臺:常用的大數據平臺組件、數據倉庫、數據湖的工具、ETL工具、數據可視化工具等。通過數據集成模塊匯聚到中臺的數據沒有經過處理,基本是按照數據的原始狀態堆砌在一起的,這樣業務還是很難使用。數據開發是一整套數據加工以及加工過程管控的工具,有經驗的數據開發、算法建模人員利用數據加工模塊提供的功能,可以快速把數據加工成對業務有價值的形式,提供給業務使用。數據開發模塊主要面向開發人員、分析人員,提供離線、實時、算法開發工具,以及任務的管理、代碼發佈、運維、監控、告警等一系列集成工具,方便使用,提升效率

數據體系:有了數據集成、數據開發模塊,中臺已經具備傳統數據倉庫(後面簡稱:數倉)平臺的基本能力,可以做數據的匯聚以及各種數據開發,就可以建立企業的數據體系。數據體系是中臺的血肉,開發、管理、使用的都是數據。大數據時代,數據量大,增長快,業務對數據的依賴也會越來越高,必須考慮數據的一致性和可複用性,垂直的、煙囪式的數據和數據服務的建設方式註定不能長久存在。不同的企業因業務不同導致數據不同,數據建設的內容也不同,但是建設方法可以相似,數據要統一建設,建議數據按照貼源數據、統一數倉、標籤數據、應用數據的標準統一建設,數據體系建設最終呈現的結果是一套完整、規範、標準、準確的數據體系,可以方便支撐數據應用。

數據資產管理:通過數據體系建立起來的數據資產較爲偏技術,業務人員比較難理解。資產管理是以企業全員更好理解的方式,把企業的數據資產展現給企業全員(當然要考慮權限和安全管控),數據資產管理包括對數據資產目錄、元數據、數據質量、數據血緣、數據生命週期等進行管理和展示,以一種更直觀的方式展現企業的數據資產,提升企業的數據意識。

數據服務體系:前面利用數據集成、數據開發建設企業的數據資產,利用數據管理展現企業的數據資產,但是並沒有發揮數據的價值。數據服務體系就是把數據變爲一種服務能力,通過數據服務讓數據參與到業務,激活整個數據中臺,數據服務體系是數據中臺存在的價值所在。企業的數據服務是千變萬化的,中臺產品可以帶有一些標準服務,但是很難滿足企業的服務訴求,大部分服務還是需要通過中臺的能力快速定製。數據中臺的服務模塊並沒有自帶很多服務,而是提供快速的服務生成能力以及服務的管控、鑑權、計量等功能

運營體系和安全體系:通過前面的數據集成、數據開發、數據體系、數據資產管理、數據服務體系,已經完成了整個數據中臺的搭建和建設,也已經在業務中發揮一定的價值。運營體系和安全管理是數據中臺得以健康、持續運轉的基礎,如果沒有它們,數據中臺很可能像個一般項目一樣,會在搭建起平臺、建設部分數據、嘗試一兩個應用場景之後而止步,無法正常地持續運營,不能持續發揮數據的應用價值。這也就完全達不到建設數據中臺的目標。數據安全管理是指對數據設定安全等級,按照相應國家/組織相關法案及監督要求,通過評估數據安全風險、制定數據安全管理制度規範、進行數據安全分級分類,完善數據安全管理相關技術規範,保證數據被合法合規、安全地採集、傳輸、存儲和使用。企業通過數據安全管理,規劃、開發和執行安全政策與措施,提供適當的身份以確認、授權、訪問與審計等功能。數據的安全治理應貫穿於數據的整個生命週期。

參考:

數據中臺(七) 數據中臺架構

《雲原生數據中臺:架構、方法論與實踐》

《數據中臺:讓數據用起來》

附件:數據中臺架構圖,挺好的,方便以後參考,就存起來了,來源於數據中臺各種架構圖











發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章