Atlas介紹 一. Apache Atlas簡介 二. 整體架構 參考:

一. Apache Atlas簡介

1.1 簡介

在當今大數據的應用越來越廣泛的情況下,數據治理一直是企業面臨的巨大問題。

大部分公司只是單純的對數據進行了處理,而數據的血緣,分類等等卻很難實現,市場上也急需要一個專注於數據治理的技術框架,這時Atlas應運而生。
Atlas官網地址:https://atlas.apache.org/
Atlas是Hadoop的數據治理和元數據框架。

Atlas是一組可擴展和可擴展的核心基礎治理服務,使企業能夠有效,高效地滿足Hadoop中的合規性要求,並允許與整個企業數據生態系統集成。
Apache Atlas爲組織提供了開放的元數據管理和治理功能,以建立其數據資產的目錄,對這些資產進行分類和治理,併爲數據科學家,分析師和數據治理團隊提供圍繞這些數據資產的協作功能。

如果想要對這些數據做好管理,光用文字、文檔等東西是不夠的,必須用圖。Atlas就是把元數據變成圖的工具。

1.2 特性

Atlas支持各種Hadoop和非Hadoop元數據類型
提供了豐富的REST API進行集成
對數據血緣的追溯達到了字段級別,這種技術還沒有其實類似框架可以實現
對權限也有很好的控制

Atlas包括以下組件:

  1. 採用Hbase存儲元數據
  2. 採用Solr實現索引
  3. Ingest/Export 採集導出組件 Type System類型系統 Graph Engine圖形引擎 共同構成Atlas的核心機制
  4. 所有功能通過API向用戶提供,也可以通過Kafka消息系統進行集成
  5. Atlas支持各種源獲取元數據:Hive,Sqoop,Storm。。。
  6. 還有優秀的UI支持

1.3 效果圖

二. 整體架構

架構圖:


2.1 Core層

Atlas核心包含以下組件:

  1. 類型(Type)系統: Atlas允許用戶爲他們想要管理的元數據對象定義模型。該模型由稱爲“類型”的定義組成。稱爲“實體”的“類型”實例表示受管理的實際元數據對象。Type System是一個允許用戶定義和管理類型和實體的組件。開箱即用的Atlas管理的所有元數據對象(例如Hive表)都使用類型建模並表示爲實體。要在Atlas中存儲新類型的元數據,需要了解類型系統組件的概念。
    需要注意的一個關鍵點是Atlas中建模的一般特性允許數據管理員和集成商定義技術元數據和業務元數據。也可以使用Atlas的功能定義兩者之間的豐富關係。

  2. 圖形引擎: Atlas在內部使用Graph模型持久保存它管理的元數據對象。這種方法提供了很大的靈活性,可以有效地處理元數據對象之間的豐富關係。圖形引擎組件負責在Atlas類型系統的類型和實體之間進行轉換,以及底層圖形持久性模型。除了管理圖形對象之外,圖形引擎還爲元數據對象創建適當的索引,以便可以有效地搜索它們。 Atlas使用JanusGraph存儲元數據對象。

  3. 採集/導出:採集組件允許將元數據添加到Atlas。同樣,“導出”組件將Atlas檢測到的元數據更改公開爲事件。消費者可以使用這些更改事件來實時響應元數據的變更。

2.2 Integration層

在Atlas中,用戶可以使用以下的兩種方式管理元數據:

  1. API: Atlas的所有功能都通過REST API向最終用戶暴露,該API允許創建,更新和刪除類型和實體。它也是查詢和發現Atlas管理的類型和實體的主要機制。

  2. Messaging: 除了API之外,用戶還可以選擇使用基於Kafka的消息傳遞接口與Atlas集成。這對於將元數據對象傳遞到Atlas以及使用Atlas使用可以構建應用程序的元數據更改事件都很有用。如果希望使用與Atlas更鬆散耦合的集成來實現更好的可伸縮性,可靠性等,則消息傳遞接口特別有用.Atlas使用Apache Kafka作爲通知服務器,用於鉤子和元數據通知事件的下游消費者之間的通信。事件由鉤子和Atlas寫入
    不同的Kafka主題。

2.3 Metadata sources層

Atlas支持開箱即用的多種元數據源集成。未來還將增加更多集成。目前,Atlas支持從以下來源提取和管理元數據:

  1. HBase
  2. Hive
  3. Sqoop
  4. Storm
  5. Kafka

集成意味着兩件事:Atlas定義的元數據模型用於表示這些組件的對象。 Atlas提供了從這些組件中攝取元數據對象的組件(在某些情況下實時或以批處理模式)。

2.4 Applications層

Atlas管理的元數據被各種應用程序使用,以滿足許多治理需求。

Atlas Admin UI: 該組件是一個基於Web的應用程序,允許數據管理員和科學家發現和註釋元數據。這裏最重要的是搜索界面和類似SQL的查詢語言,可用於查詢Atlas管理的元數據類型和對象。 Admin UI使用Atlas的REST API來構建其功能。

Tag Based Policies:Apache Ranger是Hadoop生態系統的高級安全管理解決方案,可與各種Hadoop組件進行廣泛集成。通過與Atlas集成,Ranger允許安全管理員定義元數據驅動的安全策略以實現有效的治理。 Ranger是Atlas通知的元數據更改事件的使用者。

參考:

  1. https://atlas.apache.org/#/
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章