數據倉庫-元數據簡單總結

是什麼

數據的數據。
對使用者提供解釋說明,方便快速找到想要的數據。
對開發者提供開發模型指導,提供優化方向,監控異常質量。

元數據主要分爲兩大類:技術、業務

  • 一、技術元數據
    • 1、表的基本信息、存儲信息 (MetaStore、HDFS)
    • 2、計算資源(YARN | Dr-Elephant)
    • 3、調度信息(例:Hera)
    • 4、數據質量 (例:Apache Griffin)
    • 5、血緣關係 (HIVE hook)
  • 二、業務元數據
    • 1、維度建模(維表、事實表、指標)
    • 2、應用層(報表、數據產品)

怎麼做

  • 1、收集HIVE表的各種信息(通過JobHistory收集計算資源、調度平臺收集調度信息、Metastore&HDFS收集基本信息和存儲信息、監控工具收集數據質量、解析開發任務收集血緣關係和表和字段的使用情況)
  • 2、使用血緣關係對HIVE表進行打標籤(業務線、重要等級、安全等級)
  • 3、業務元數據,使用工具化平臺在開發中進行記錄和修改。

應用場景

1、元數據平臺
幫助使用者 輕鬆獲取數據

  • 表的使用熱度、字段含義、加工邏輯、指標解釋
  • 報表的粒度、指標

幫助開發工程師 快速瞭解

  • 維表的屬性、事實表的粒度和事實、和對應的ETL過程;
  • 通過查看錶和字段使用和關聯情況,判斷是否能改進倉庫建模;
  • 對於數據質量有異常,快速定位鏈路中哪出問題;
  • 保證重要任務的整條鏈路質量和資源;
  • 提供可以下線的任務的數據依據

2、血緣分析 使用場景
異常定位、鏈路保障、建模優化等…

阿里巴巴大數據之路

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章