使用Atlas進行元數據管理之Atlas簡介

背景:筆者和團隊的小夥伴近期在進行數據治理/元數據管理方向的探索, 在接下來的系列文章中, 會陸續與讀者們進行分享在此過程中踩過的坑和收穫。

0. 當我們談論數據治理/元數據管理的時候,我們究竟在討論什麼?

談到數據治理,自然離不開元數據。元數據(Metadata),用一句話定義就是:描述數據的數據。元數據打通了數據源、數據倉庫、數據應用,記錄了數據從產生到消費的全過程。因此,數據治理的核心就是元數據管理

數據的真正價值在於數據驅動決策,通過數據指導運營。通過數據驅動的方法判斷趨勢,幫住我們發現問題,繼而推動創新或產生新的解決方案。隨着企業數據爆發式增長,數據體量越來越難以估量,我們很難說清楚我們到底擁有哪些數據,這些數據從哪裏來,到哪裏去,發生了什麼變化,應該如何使用它們。因此元數據管理(數據治理)成爲企業級數據湖不可或缺的重要組成部分。

可惜很長一段時間內,市面都沒有成熟的數據治理解決方案。直到2015年,Hortonworks終於坐不住了,約了一衆小夥伴公司倡議:咱們開始整個數據治理方案吧。然後,包含數據分類、集中策略引擎、數據血緣、安全和生命週期管理功能的Atlas應運而生。(PS:另一個應用的較多的元數據開源項目是Linkedin 在2016年新開源的項目:WhereHows)Atlas目前最新的版本爲2018年9月18日發佈的1.0.0版本。

1. Atlas介紹

Atlas 是一個可伸縮和可擴展的核心基礎治理服務集合 ,使企業能夠有效地和高效地滿足 Hadoop 中的合規性要求,並允許與整個企業數據生態系統的集成。

Apache Atlas爲組織提供開放式元數據管理和治理功能,用以構建其數據資產目錄,對這些資產進行分類和管理,併爲數據科學家,數據分析師和數據治理團隊提供圍繞這些數據資產的協作功能。

2. 特性

2.1 元數據類型 & 實例

  • 各種Hadoop和非Hadoop元數據的預定義類型
  • 能夠爲要管理的元數據定義新類型
  • 類型可以具有原始屬性,複雜屬性,對象引用;可以繼承其他類型
  • 類型(type)實例(稱爲實體entities)捕獲元數據對象詳細信息及其關係
  • 可以更輕鬆地進行集成用於處理類型和實例的REST API

2.2 分類

  • 能夠動態創建分類 - 如PII,EXPIRES_ON,DATA_QUALITY,SENSITIVE。
  • 分類可以包含屬性 - 例如EXPIRES_ON分類中的expiry_date屬性。
  • 實體(entities)可以與多個分類(classifications)相關聯,從而實現更輕鬆的發現和安全實施。
  • 通過血緣傳播分類 - 自動確保分類在進行各種處理時遵循數據。

2.3 血緣

  • 直觀的UI,用於在數據流轉時,通過各種流程時查看數據。
  • 用於訪問和更新血緣的REST API。

2.4 搜索/發現

  • 直觀的UI,按類型(type),分類(classification),屬性值(attribute)或自由文本搜索實體。
  • 豐富的REST API,可按複雜條件進行搜索。
  • SQL搜索實體的查詢語言 - 域特定語言(DSL)。

2.5 安全和數據屏蔽

  • 用於元數據訪問的細粒度安全性,實現對實體實例的訪問控制以及添加/更新/刪除分類等操作。
  • 與Apache Ranger集成可根據與Apache Atlas中的實體相關的分類對數據訪問進行授權/數據屏蔽。例如:
    • 誰可以訪問分類爲PII,SENSITIVE的數據。
    • 客戶服務用戶只能看到分類爲NATIONAL_ID的列的最後4位數字。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章