大數據體系乾貨(一) - 數據平臺與數據中臺

數據平臺

  • 數據平臺是在數以萬計的硬件之上建立統一的基礎數據存儲和計算的服務,當然我們所建設的數據平臺需要周邊一些輔助的服務來支撐核心服務的運行,以及一些數據平臺管理類工具,輔助日常SRE工作

數據中臺

  • 數據中臺是抽象了數據能力的共性形成的數據服務能力,是一系列數據服務,用系統化思路解決數據前臺對數據獲取的難度,更好的賦能業務

數據平臺與數據中臺的區別與聯繫

區別

  • 核心區別是-是否跟業務強相關
  • 數據平臺和業務的聯繫並不密切,提供基礎的存儲,計算,調度,數倉工具等基礎的技術服務,至於業務數據怎麼存儲,數據表如何組織,數據模型如何建,數據如何服務業務,數據平臺並不關心
  • 數據中臺的目的是通過系統化思路的去組織數據,讓數據更好的服務業務,包括數據前臺的報表,自助分析,OLAP,維度指標管理,業務中臺等

聯繫

  • 數據平臺是數據中臺的基石,數據中臺要基於需求業務體系,在數據平臺之上去建設數據體系
  • 數據中臺的建設,也會給數據平臺帶來更多的技術需求和壓力,促進數據平臺技術棧更加多樣性,性能向更優化方向發展

整體架構

  • 此處的圖是包含了這個數據生態的基本體系架構,從低向上的依賴關係
    在這裏插入圖片描述

硬件層&虛擬化

  • 基礎的IT設施,提供基本的運力
  • 萬物上雲,爲雲上的服務提供動態縮放的能力,降低整個it設施的成本,提高it設備利用率,當然很多公司的數據平臺還有很多直接基於硬件搭建的

數據平臺

存儲能力

  • 分佈式文件系統,不論是基於磁盤還是基於內存,只是不同存儲成本的文件系統,帶來不同存儲性能和特性
  • MQ類的主要支持數據採集和實時計算
  • 數據庫主要支持查詢類和實時計算,類別很多,關係型,nosql,各有千秋

計算能力

  • 離線計算,提供批處理計算能力,主要負責天,周,月等數據生產,主流的像早期的mr,後期的spark等
  • 實時計算,提供實時數據處理能力,負責實時數據生產,當然實時離線是我們人爲劃定的時間界限,對於引擎而言,像spark,flink都提供實時和離線的解決方案
  • 算法平臺,主要提供機器學習,人工智能,數據挖掘的計算能力,算法框架的選擇也是很多,當然在大數據生態還是需要運行在yarn這樣資源管理平臺,纔可以發揮大數據的價值
  • 查詢類服務,提供一些和用戶交互的查詢能力,像一些mpp框架等,多數提供sql查詢能力

管理平臺

  • 管理平臺,是在原生的大數據生態的基礎之上,爲了更好的管理集羣服務,管理集羣的資源,提供靈活SRE能力和資源覈算審計能力的一系列工具和合稱

數據中臺

數據倉庫

  • 數據中臺包括數據倉庫的全部內容,數據倉庫爲數據中臺提供了數據對外提供服務的基礎資源,數據中臺將數據倉庫建設的投入價值進行最大化,以加快數據賦能業務的速度
  • 大家都知道數據倉庫需要分層建設,需要面向業務主題,但是規範和落地往往是有差異,中臺可以幫助數倉建模流程從文檔化向標準化邁進,降低由於團隊認知差異帶來的數倉規範不統一的風險

數據集市

  • 集市層主要面向具體應用做開發,是數倉向數據前臺數據的重要連接層,數倉建設的好壞,對數據集市的建設影響很大
  • 數倉和數據集市同樣都面臨數據重複建設,數據不一致的問題,需要中臺協助數倉和數據集市規範化落地

數據開發

  • 數據中臺需要改變原來的開發模式,提供全流程的數據開發解決方案,規範開發流程的每一個步驟,達到大一統的效果
  • 維度指標元數據管理
  • 指標樹主要維護了指標和指標之間關係,比如某個衍生指標是有哪些基礎指標通過什麼計算公式計算得到,這個關係很重要,這是做智能異動分析的基礎,可以實現很多自動化的異常數據監控和分析能力
  • 指標地圖主要維護了指標和數據的物理存儲的關聯關係,通過地圖我們可以輕鬆到找到哪些維度指標存儲到了哪些物理存儲裏面
  • 建模工具來幫助數倉和數據集市規範的落地,如果沒有工具協助,我們制定再好的倉庫分層方案,倉庫建模方案都是徒勞的,經過長期的累計和人員流動,非常容易導致規範落地不標準,導致數據不一致等一系列問題
  • 開發工具主要協助RD對ETL代碼管理,如果還是通過原始命令+sql文件方式來管理ETL,那開發效率會很低,而且對依賴關係和調度的管理也是問題,開發工具會貫穿幾乎開發的全流程,來加速開發

數據運維

  • DQC,數據質量監控,提供日常數據質量監控能力,是保證數據一致性的基礎,DQC一般提供的基礎的質量監控,比如基礎的同環比閾值監控,條數監控,空數據監控,均值監控等
  • SLA,數據按時生產的參考標準,etl任務健康度評估的重要指標,保證數據按時交付,確定etl任務的優化目標
  • 異動分析,爲業務提供自動化的數據波動分析能力,幫助業務人員定位異常根源,快速調整業務決策
  • 資產管理,數據中臺的核心資源就是數據,數據以資產形式管理起來,可以是我們精確的知道我們擁有數據的情況,以方便對數據資源的管理
  • 生命週期管理,數據都有時效性,隨着時間推移,需要對數據進行生命週期管理,做合理的清理,屬於數據治理的子模塊

賦能對象

賦能管理者

  • 賦能管理者,大盤類,大屏類產品,提供綜合的,上層的業務視角的數據,來爲管理者提供管理決策需要的基礎數據
  • 提升一點,可以配合業務經驗和AI,來提供輔助決策意見,輔助管理者做決策

賦能業務運營

  • 賦能業務運營,報表類,自助分析類產品,提供了比支持管理者產品更細粒度的數據,可以滲透到業務細節中,爲底層運營決策提供精準的數據支持能力

賦能業務中臺

  • 賦能業務中臺,沒有數據的賦能,業務中臺也還是偏向於業務公共服務的抽象,只有數據中臺的賦能,才能使業務系統是一個智能化的業務系統
  • 比如像"千人千面"的推薦系統

賦能數據變現

  • 賦能數據變現,精準營銷的廣告系統,爲廣告帶來更高的流水

賦能合作伙伴

  • 賦能合作伙伴,強大的數據服務能力,可以爲合作伙伴提供正確的決策方向,達到共贏的狀態
發佈了143 篇原創文章 · 獲贊 193 · 訪問量 363萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章