「數據治理那點事」系列之二:手握數據「戶口本」,數據治理肯定穩!

這篇文章主要從數據治理的基礎和核心之一:元數據 入手,從以下幾個角度展開具體講解:

元數據概念
元數據的分佈和採集
元數據的一些實際應用場景
.

1.元數據到底是個啥?

如果我說:元數據(Meta Data),就是描述數據的數據。沒有技術背景加持的路人粉看到這句「繞口令」,內心可能會浮現這樣的想法:

簡單點,其實元數據相當於數據的戶口本。

戶口本是什麼?它除了包含個人姓名、年齡、性別、×××號碼等各種基本描述信息外,還有這個人和家人的血緣關係,比如說父子,兄妹等等。所有的這些信息加起來,構成對這個人的全面描述,也可以稱之爲這個人的元數據。

同樣的,如果我們要描述清楚一個實際的數據,以某張表爲例,我們需要知道表名、表別名、表的所有者、數據存儲的物理位置、主鍵、索引、表中有哪些字段、這張表與其他表之間的關係等等。所有的這些信息加起來,就是這張表的元數據。這麼一類比,我們對元數據的概念可能就清楚很多了:元數據是數據的戶口本。
.

2. 元數據管理,是數據治理的核心和基礎

如果讓你帶兵打仗,現在你必須要掌握的信息是什麼?沒錯,一張戰場的地圖必不可少!而元數據在數據治理當中,就相當於所有數據的地圖。

在這張關於數據的地圖中,我們可以知道:
我們有哪些數據?數據分佈在哪裏?這些數據分別是什麼類型?數據之間有什麼關係?哪些數據經常被引用?哪些數據無人光顧?
……
所以,如果我們做數據治理,卻沒有掌握這張地圖,就猶如瞎子摸象。後續的文章中我們要講到的數據資產管理,知識圖譜,其實大部分也是建立在元數據之上的。所以我們說:元數據是一個組織內的數據地圖,它是數據治理的核心和基礎。
.

3.元模型又是誰?

元模型(Meta Model),是描述元數據的數據。它與元數據、數據之間的關係,可以用下面這張圖來描述。

「數據治理那點事」系列之二:手握數據「戶口本」,數據治理肯定穩!

對於元模型的概念,我們不做深入的討論。我們只需要知道下面這些:元數據本身的數據結構也是需要被定義和規範的,定義和規範元數據的就是元模型,國際上元模型的標準是 CWM(Common Warehouse Metamodel,公共倉庫元模型),一個成熟的元數據管理工具,需要支持 CWM 標準。
.

4.元數據從哪來?

在大數據平臺中,元數據貫穿大數據平臺數據流動的全過程,主要包括數據源元數據、數據加工處理過程元數據、數據主題庫專題庫元數據、服務層元數據、應用層元數據等。下圖以一個數據中心爲例,展示了元數據的分佈範圍:
「數據治理那點事」系列之二:手握數據「戶口本」,數據治理肯定穩!

業內通常把元數據分爲以下類型:
技術元數據:庫表結構、字段約束、數據模型、ETL 程序、SQL 程序等。
業務元數據:業務指標、業務代碼、業務術語等。
管理元數據:數據所有者、數據質量定責、數據安全等級等。
.
元數據採集是指獲取數據生命週期中的元數據,對元數據進行組織,然後將元數據寫入數據庫中的過程。使用包括數據庫直連、接口、日誌文件等技術手段,對結構化數據的數據字典、非結構化數據的元數據信息、業務指標、代碼、數據加工過程等元數據信息進行自動化和手動採集。元數據採集完成後,被組織成符合 CWM 模型的結構,存儲在關係型數據庫中。
.

5.有了元數據,我們能做些什麼?

先看一張元數據管理的整體功能架構圖,有了元數據,我們能做些什麼,從這張圖裏一目瞭然:
「數據治理那點事」系列之二:手握數據「戶口本」,數據治理肯定穩!

① 元數據查看
一般是以樹形結構組織元數據,按不同類型對元數據進行瀏覽和檢索。如我們可以瀏覽表的結構、字段信息、數據模型、指標信息等。通過合理的權限分配,元數據查看可以大大提升信息在組織內的共享。
.
② 數據血緣和影響性分析
數據血緣和影響性分析主要解決「數據之間有什麼關係」的問題。因其重要價值,有的廠商會從元數據管理中單獨提取出來,作爲一個獨立的重要功能。但是考慮到數據血緣和影響性分析其實是來自於元數據信息,所以還是放在元數據管理中來描述。
.
血緣分析指的是獲取到數據的血緣關係,以歷史事實的方式記錄數據的來源,處理過程等。以某張表的血緣關係爲例,血緣分析展示如下信息:
「數據治理那點事」系列之二:手握數據「戶口本」,數據治理肯定穩!
.
數據血緣分析對於用戶具有重要的價值,如:當在數據分析中發現問題數據的時候,可以依賴血緣關係,追根溯源,快速地定位到問題數據的來源和加工流程,減少分析的時間和難度。
.
數據血緣分析的典型應用場景:某業務人員發現「月度營銷分析」報表數據存在質量問題,於是向 IT 部門提出異議,技術人員通過元數據血緣分析發現「月度營銷分析」報表受到上游 FDM 層四張不同的數據表的影響,從而快速定位問題的源頭,低成本地解決問題。
.
除了血緣分析之外,還有一種影響性分析,它能分析出數據的下游流向。當系統進行升級改造的時候,如果修改了數據結構、ETL 程序等元數據信息,依賴數據的影響性分析,可以快速定位出元數據修改會影響到哪些下游系統,從而減少系統升級改造帶來的風險。從上面的描述可以知道:數據影響性分析和血緣分析正好相反,血緣分析指向數據的上游來源,影響性分析指向數據的下游。
.
影響性分析的典型應用場景:某機構因業務系統升級,在“FINAL_ZENT ”表中修改了字段:TRADE_ACCORD 長度由 8 修改爲 64,需要分析本次升級對後續相關係統的影響。對元數據“FINAL_ZENT”進行影響性分析,發現對下游 DW 層相關的表和 ETL 程序都有影響,IT 部門定位到影響之後,及時修改下游的相應程序和表結構,避免了問題的發生。由此可見,數據的影響性分析有利於快速鎖定元數據變更帶來的影響,將可能發生的問題提前消滅在萌芽之中。
.
③ 數據冷熱度分析
冷熱度分析主要是對數據表的被使用情況進行統計,如:表與ETL 程序、表與分析應用、表與其他表的關係情況等,從訪問頻次和業務需求角度出發,進行數據冷熱度分析,用圖表的方式,展現表的重要性指數。
數據的冷熱度分析對於用戶有巨大的價值,典型應用場景:我們觀察到某些數據資源處於長期閒置,沒有被任何應用調用,也沒有別的程序去使用的狀態,這時候,用戶就可以參考數據的冷熱度報告,結合人工分析,對冷熱度不同的數據做分層存儲,以更好地利用 HDFS 資源,或者評估是否對失去價值的這部分數據做下線處理,以節省數據存儲空間。
.
④ 數據資產地圖
通過對元數據的加工,可以形成數據資產地圖等應用。數據資產地圖一般用於在宏觀層面組織信息,以全局視角對信息進行歸併、整理,展現數據量、數據變化情況、數據存儲情況、整體數據質量等信息,爲數據管理部門和決策者提供參考。
.
⑤ 元數據管理的其他應用
元數據管理中還有其他一些重要功能,如:元數據變更管理,對元數據的變更歷史進行查詢,對變更前後的版本進行比對等等;元數據對比分析,對相似的元數據進行比對;元數據統計分析,用於統計各類元數據的數量,如各類數據的種類,數量等,方便用戶掌握元數據的彙總信息。諸如此類的應用,不一一列舉。

6.做個總結

「數據治理那點事」系列之二:手握數據「戶口本」,數據治理肯定穩!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章