Atlas(元數據管理)從掃盲到和Hive、HBase、Kafka、Flink等集成開發

速點鏈接加入高手戰隊:http://www.dajiangtai.com/course/112.do

先對數據分個類

企業數據管理的內容及範疇通常包括交易數據、主數據以及元數據。

(1)交易數據:用於紀錄業務事件,如客戶的訂單,投訴記錄,客服申請等,它往往用於描述在某一個時間點上業務系統發生的行爲。

(2)主數據:主數據則定義企業核心業務對象,如客戶、產品、地址等,與交易流水信息不同,主數據一旦被記錄到數據庫中,需要經常對其進行維護,從而確保其時效性和準確性;主數據還包括關係數據,用以描述主數據之間的關係,如客戶與產品的關係、產品與地域的關係、客戶與客戶的關係、產品與產品的關係等。

(3)元數據:即關於數據的數據,用以描述數據及其環境的結構化信息,便於查找、理解、使用和管理數據。

什麼是元數據管理

我們前面講解的技術和平臺都在解決主數據和交易數據的採集、加工、存儲、計算等問題。但面對海量且持續增加的各式各樣的數據時,你一定想知道數據從哪裏來以及它如何隨時間而變化?採用Hadoop必須考慮數據管理的實際情況,元數據與數據治理成爲企業級數據湖的重要部分。

所謂元數據管理其實通俗來講就兩點:

(1)把各個組件(一般是存儲)的元數據收集起來統一管控

(2)利用這些收集的元數據去實現各種上層應用以滿足各種數據治理場景(數組資產目錄、數據分類、搜索與血緣等等)

Atlas是什麼

Apache Atlas是Hadoop社區爲解決Hadoop生態系統的元數據治理問題而產生的開源項目,它爲Hadoop集羣提供了包括 數據分類、集中策略引擎、數據血緣、安全和生命週期管理在內的元數據治理核心能力。可以幫助企業構建其數據資產目錄,對這些資產進行分類和管理,併爲數據分析師和數據治理團隊,提供圍繞這些數據資產的協作功能。

Atlas不盡致力於管理共享元數據、數據分級、審計、安全性以及數據保護等方面,同時努力與Apache Ranger整合,用於數據權限控制策略。

Apache Atlas是hadoop的數據治理和元數據框架,它提供了一個可伸縮和可擴展的核心基礎數據治理服務集,使得 企業可以有效的和高效的滿足Hadoop中的合規性要求,並允許與整個企業的數據生態系統集成。

Atlas架構與原理

Atlas 是一個可伸縮且功能豐富的數據管理系統,深度集成了 Hadoop 大數據組件。簡單理解就是一個跟 Hadoop 關係緊密的,可以用來做元數據管理的一個系統,整個結構 圖如下所示:

Atlas核心功能分層及說明

集成Hive

集成原理

驗證Hive元數據採集效果

(1)先查看Atlas裏是否有Hive元數據

(2)進入Hive創建一個庫表

create database if not exists foo;

(3)再次進入Atlas查看元數據

歷史元數據處理

在上線Atlas之前Hive可能運行很久了,所以歷史上的元數據無法觸發hook,因此需要一個工具來做初始化導入。

Apache Atlas提供了一個命令行腳本 import-hive.sh ,用於將Apache Hive數據庫和表的元數據導入Apache Atlas。該腳本可用於使用Apache Hive中的數據庫/表初始化Apache Atlas。此腳本支持導入特定表的元數據,特定數據庫中的表或所有數據庫和表。

導入工具調用的是對應的Bridge:org.apache.atlas.hive.bridge.HiveMetaStoreBridge執行導入腳本任意找一臺安裝過Atlas client的節點,執行如下命令:

注意:一定要進入atlas用戶,因爲Atlas的Linux管理賬戶是atlas,其他賬戶下可能會報沒有權限的錯誤。

腳本執行過程中會要求輸入Atlas的管理員賬號/密碼(admin/admin%123),看到如下信息就成功了:

查看元數據

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章