數據治理中的數據血緣關係是什麼？用來解決什麼問題

原創

2020-04-22 15:39

前言：
數據血緣屬於數據治理中的一個概念，是在數據溯源的過程中找到相關數據之間的聯繫，它是一個邏輯概念。
數據治理裏經常提到的一個詞就是血緣分析，血緣分析是保證數據融合的一個手段，通過血緣分析實現數據融合處理的可追溯。大數據數據血緣是指數據產生的鏈路，直白點說，就是我們這個數據是怎麼來的，經過了哪些過程和階段。

數據血緣關係的應用場景是什麼：
在數據的處理過程中，從數據源頭到最終的數據生成，每個環節都可能會導致我們出現數據質量的問題。比如我們數據源本身數據質量不高，在後續的處理環節中如果沒有進行數據質量的檢測和處理，那麼這個數據信息最終流轉到我們的目標表，它的數據質量也是不高的。也有可能在某個環節的數據處理中，我們對數據進行了一些不恰當的處理，導致後續環節的數據質量變得糟糕。因此，對於數據的血緣關係，我們要確保每個環節都要注意數據質量的檢測和處理，那麼我們後續數據纔會有優良的基因，即有很高的數據質量。

舉例說明：
現在假設你是一隻數據開發工程師，爲了滿足一次業務需求，，然後爲了生成這張表，可能是處於程序邏輯清晰或者性能優化的考慮，你會使用很多份數據表，也會通過 MR、Spark 或者 Hive 來生產很多中間表。
如下圖，是你將花費時間來實現的整個數據流。

其中 Table X 是最終給到業務側的表。
藍色的 Table A-E，是原始數據。
黃色的 Table F-I 是你計算出來的中間表。這些表都是你自己寫程序要處理的表。
然後你爲了懶省事，嗯，應該說本着不重複開發的原則，你還要用到同事小夥伴處理的表，Table J 就是別人處理過的結果表。

過了一段時間後，業務側的感覺你提供的數據中有個字段總是不太對勁，其實就是懷疑你的數據出問題！需要你來追蹤一下這個字段的來源。
首先你從 Table X 中找到了異常的字段，然後定位到了它來源於 Table I，再從 Table I 定位到了它來源於 Table G，再從 Table G 追溯到了 Table D，最終發現是某幾天的來源數據有異常。
或者說，你從 Table X 定位到了異常的字段原來來自於其它小夥伴處理的表 Table J，然後繼續向前回溯，找到了這張表在處理過程中的某一個步出現了問題。

我們如何將數據血緣關係進行可視化呢：
在NBI大數據可視化平臺中我們可以通過桑基圖方式來對數據關係鏈路來分析：