數據治理的血緣分析

數據治理裏經常提到的一個詞就是血緣分析,血緣分析是保證數據融合(聚合)的一個手段,通過血緣分析實現數據融合處理的可追溯。
有時被概念瞎蒙了,不知道到底如何追溯,落不了地。本人接觸的數據治理項目還主要是將各個來源的數據進行整理融合,形成人地事物組織幾個業務大類數據。至於詳細的ODS、DWD、DWA等數據組織請閱讀這篇文章:
數據治理概述

本文主要從數據追溯的業務需求來分析一下,一切還是要從需求出發,這裏的數據處理都是Oracle關係數據庫之間的融合,血緣分析就劃分爲表結構血緣分析和記錄級的血緣分析;這兩類業務場景:

表結構血緣分析

表結構數據血緣分析
針對表結構的情況,最終用戶和運維用戶最需要關注,目標表的每個字段的數據來源有哪些?也就是建立一個源表、源字段和目標表、目標字段的映射關係,一個目標表可以對應多個來源表的字段,比如:姓名字段,可能來至於戶籍人口表也可能來至於流動人口表或老年人表,也就是意味着這三張表合併起來的人口,纔是這個區域的所有人口(這裏是舉例哈!)
通過上圖我們就可以清楚的看到從目標表的目標字段出發,知道數據庫中數據處理的規則,清楚的瞭解每個字段數據的來源。
至於其中ODS、DWD、DWA的關係,參照上面所述先去了解。

記錄級血緣分析

數據記錄的血緣分析

記錄級的血緣分析,就是從當前記錄出發可以按時間查看該記錄所有的變更過程。一條記錄的生成可能原始對應兩個表的兩條記錄,這種是要追溯跟蹤的。
如果再精細跟蹤,就可以做到字段級的血緣分析,與表結構的血緣分析就可以完美呼應。
單擊某一個字段,可查看該字段的血緣關係;一個是以此字段爲目標的血緣追溯,一個是以此字段爲源的血緣追溯
這裏就要看具體應用需求來定,畢竟做的越精細實現方案會越複雜。
血緣分析畢竟解決的問題是數據出了錯之後能明確知道是哪一步環節的哪個原始數據出問題了,所以一般到記錄級就基本可以進行追溯跟蹤了。
以上是從使用用戶的角度分析的血緣分析要乾的事情,至於如何實現這個需求,我也在考慮哈,下回再分析!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章