建設方法論onedate:極客數據中臺課程總結

文章大部分內容摘錄自極客數據中臺課程:https://time.geekbang.org/column/article/220290

一、前言

數據開發職業規劃:熟練的使用數據中臺支撐技術體系內的工具,熟悉數據中臺模式下數據研發的流程,對指標定義、維度建模、數據質量稽覈監控、成本的管理、數據安全、數據服務化等內容要有深入的掌握。

課程收穫很多,數據規範化流程終於看見文字描述。課程定義的是數據中臺,其實數據倉庫也可以借鑑。看了之後,很多問題都知道改進方向。

二、正文

要建設數據中臺包括三部分:方法論、數據中臺支撐技術、組織架構。該課程主要講解的是方法論。

2016 年,阿里巴巴就提出了數據中臺建設的核心方法論:OneData 和 OneService,經過這麼多年,很多公司都進行了實踐,但你很難找出一個準確的定義去描述這些方法論。下面是該課程老師結合他在網易數據中臺建設的經驗,對方法論進行了系統化的定義

1、OneData:所有的數據只加工一次
  • 數據中臺就是要形成一個公共數據層,消滅這些跨部門的小數倉,實現數據的複用,所以強調數據只加工一次,不會因爲不同的應用場景,不同的部門數據重複加工。
  • 小部門不產生數據,數據由公司的數據團隊提供。但是數據團隊會存在數據重複加工。如:開發不熟悉已開發的表、爲得到某個數據而重複開發;指標重複開發計算;同業務數據、業務字段重複計算。

如何實現數據只加工一次?

感悟:
我認爲onedata(數據只加工一次),更要約束數據團隊,數據常存在多次加工的情況。在“數據中臺”課程中給了數據團隊如何做到數據只加工一次的方法。主要是通過:元數據管理、指標定義、維度建模、數據質量稽覈監控、成本的管理來實現的。
如何實現數據只加工一次,看大標題分主題域管理、命名規範定義、指標一致、數據模型服用、數據完善,不清楚具體如何實現的,在下面的課程學習。

2、OneService

OneService,數據即服務,強調數據中臺中的數據應該是通過 API 接口的方式被訪問

爲什麼數據一定要通過 API 接口的方式被訪問,不通過 API 接口,直接提供數據表給用戶又存在哪些問題呢?

如果你是數據應用開發,當你要開發一個數據產品時,首先要把數據導出到不同的查詢引擎上:

  • 數據量小的使用 MySQL;
  • 大的可能用到 HBase;
  • 需要多維分析的可能需要 Greenplum;
  • 實時性要求高的需要用到 Redis;

總的來說,不同的查詢引擎,應用開發需要定製不同的訪問接口

如果你是一個數據開發,當某個任務無法按時產出,發生異常時,想要了解這個表可能會影響到下游的哪些應用或者報表,但是卻發現單純依賴表與表的血緣無法觸及應用,根本無法知道最後的這些表被哪些應用訪問。與此同時,當你想下線一張表時,因爲不知道誰訪問了這張表,無法實施,最終造成了“上線容易,下線難”的窘境。

而 API 接口一方面對應用開發屏蔽了底層數據存儲,使用統一標準的 API 接口查詢數據,提高了數據接入的速度。另一方面,對於數據開發,提高了數據應用的管理效率,建立了表到應用的鏈路關係。

感悟:
在工作中OneService這方面的困惑比較少,我們都是定製化的服務,都是給固定的需求使用。後期除了數據只加工一次外,也需要分析誰使用了這部分數據。

三、數據中臺、數據倉庫區別

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章