是什麼
數據的數據。
對使用者提供解釋說明,方便快速找到想要的數據。
對開發者提供開發模型指導,提供優化方向,監控異常質量。
元數據主要分爲兩大類:技術、業務
- 一、技術元數據
- 1、表的基本信息、存儲信息 (MetaStore、HDFS)
- 2、計算資源(YARN | Dr-Elephant)
- 3、調度信息(例:Hera)
- 4、數據質量 (例:Apache Griffin)
- 5、血緣關係 (HIVE hook)
- 二、業務元數據
- 1、維度建模(維表、事實表、指標)
- 2、應用層(報表、數據產品)
怎麼做
- 1、收集HIVE表的各種信息(通過JobHistory收集計算資源、調度平臺收集調度信息、Metastore&HDFS收集基本信息和存儲信息、監控工具收集數據質量、解析開發任務收集血緣關係和表和字段的使用情況)
- 2、使用血緣關係對HIVE表進行打標籤(業務線、重要等級、安全等級)
- 3、業務元數據,使用工具化平臺在開發中進行記錄和修改。
應用場景
1、元數據平臺
幫助使用者 輕鬆獲取數據
- 表的使用熱度、字段含義、加工邏輯、指標解釋
- 報表的粒度、指標
幫助開發工程師 快速瞭解
- 維表的屬性、事實表的粒度和事實、和對應的ETL過程;
- 通過查看錶和字段使用和關聯情況,判斷是否能改進倉庫建模;
- 對於數據質量有異常,快速定位鏈路中哪出問題;
- 保證重要任務的整條鏈路質量和資源;
- 提供可以下線的任務的數據依據
2、血緣分析 使用場景
異常定位、鏈路保障、建模優化等…
阿里巴巴大數據之路