數據治理之元數據管理

一.概述

       元數據通常定義爲”關於數據的數據”,元數據貫穿了數據倉庫的整個生命週期,使用元數據驅動數據倉庫的開發,使數據倉庫自動化,可視化。元數據打通了源數據、數據倉庫、數據應用,記錄了數據從產生到消費的全過程。

例如我們看一部電影,電影本身就是數據,那麼元數據就是用來描述這部電影的數據。如下圖所示:

        元數據主要記錄數據倉庫中模型的定義、各層級間的映射關係、監控數據倉庫的數據狀態及 ETL 的任務運行狀態。在數據倉庫系統中,元數據可以幫助數據倉庫管理員和開發人員非常方便地找到他們所關心的數據,用於指導其進行數據管理和開發工作,可以極大的提升工作的效率。

二.元數據定義

將元數據按用途的不同分爲兩類:技術元數據(Technical Metadata)和業務元數據(Business Metadata)。

技術元數據是存儲關於數據倉庫系統技術細節的數據,是用於開發和管理數據倉庫使用的數據。常見的技術元數據有:

1.存儲元數據:如表、字段、分區等信息。

記錄了表的中英文名及表狀態。分區信息、責任人信息、對應主題,文件大小、表類型,生命週期,權限信息

記錄列的字段中英文名、字段類型、字段備註、是否是分區字段,保密級別及權限信息等信息。

2.運行元數據,如大數據平臺上所有作業運行等信息:類似於 Hive Job 日誌,包括作業類型、實例名稱、輸入輸出、 SQL 、運行參數、執行時間,執行引擎等。

3.數據開發平臺中數據同步、計算任務、任務調度等信息,包括數據同步的輸入輸出表和字段,以及同步任務本身的節點信息:計算任務主要有輸入輸出、任務本身的節點信息 任務調度主要有任務的依賴類型、依賴關係等,以及不同類型調度任務的運行日誌等。

4.數據質量和運維相關元數據,如任務監控、運維報警、數據質量、故障等信息,包括任務監控運行日誌、告警配置及運行日誌、故障信息等。

       業務元數據從業務角度描述了數據倉庫中的數據,它提供了介於使用者和實際系統之間的語義層,使得不懂計算機技術的業務人員也能夠讀懂”數據倉庫中的數據。

     常見的業務元數據有維度及屬性(包括維度編碼,字段類型,創建人,創建時間,狀態等)、業務過程、指標(包含指標名稱,指標編碼,業務口徑,指標類型,責任人,創建時間,狀態,sql等),安全等級,計算邏輯等的規範化定義,用於更好地管理和使用數據。數據應用元數據,如數據報表、數據產品等的配置和運行元數據。

三.元數據價值

       元數據有重要的應用價值,是數據管理、數據內容、數據應用的基礎,在數據管理方面爲集團數據提供在計算、存儲、成本、質量、安全、模型等治理領域上的數據支持。例如在計算上可以利用元數據查找超長運行節點,對這些節點進行專項治理,保障基線產出時間。在數據內容方面爲集團數據進行數據域、數據主題、業務屬性等的提取和分析提供數據素材。例如可以利用元數據構建知識圖譜,給數據打標籤,清楚地知道現在有哪些數據。在數據應用方面打通產品及應用鏈路,保障產品數據準確、及時產出。例如打通DP和應用數據,明確數據產等級,更有效地保障產品數據。

四.元數據應用

        數據的真正價值在於數據驅動決策,通過數據指導運營。通過數據驅動的方法,我們能夠判斷趨勢 ,從而展開有效行動,幫助自己發現問題,推動創新或解決方案的產生。這就是數據化運營。同樣,對於元數據,可以用於指導數據相關人員進行日常工作,實現數據化“運營”。 比如對於數據使用者,可以通過元數據讓其快速找到所需要的數據;對於ETL 工程師,可以通過元數據指導其進行模型設計、任務優化和任務下線等各種日常ETL 工作;對於運維工程師,可以通過元數據指導其進行整個集羣的存儲、計算和系統優化等運維工作。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章