Github 1.9K Star的數據治理框架-Amundsen

Amundsen的使命,整理有關數據的所有信息,並使其具有普遍適用性

這是Amundsen官網的一句話,對於元數據的管理工作,複雜且繁瑣。可用的工具很多但各有千秋,數據血緣做的較好的應該是Apache Atlas,而數據可視化做的較好的應該是Apache Superset。業界一直需要一個可以整合這些功能,讓數據治理更加的簡單便捷,而這正是Amundsen的使命。

類似於Atlas (Apache),Datahub (LinkedIn)。Amundsen主要在於提高數據分析師,數據科學家和數據工程師的工作效率。它可以通過爲數據資源建立索引,並通過一定的機制來支持在頁面上進行排名搜索。可以將其視爲搜索功能,但搜索的是元數據。該項目以挪威探險家Roald Amundsen(第一個發現南極的人)的名字命名。

Amundsen由LF AI&Data基金會維護。LF AI&Data是Linux Foundation的保護基金會,支持人工智能,機器學習,深度學習和數據方面的開源創新。

目前Amundsen在github有1.9kStar,還沒有Releases的版本,項目正處於蒸蒸日上的上升期。

架構

下圖顯示了Amundsen的總體架構。

可見,Hive,Presto等數據源通過Databuilder ingestion框架獲取元數據,寫入Elasticsearch和Neo4j,通過搜索服務與元數據服務提供給前端。

主要模塊如下:

前端服務

作爲用戶交互的web頁面。

這是基於Flask的Web應用程序,頁面是React構建的。

搜索服務

搜索服務採用Elasticsearch的搜索功能(或者Apache Atlas),並提供一個RESTful API服務。

元數據服務

元數據服務目前使用的Neo4j的圖數據庫進行交互。

功能展示

Amundsen提供了搜索,推薦,表描述,數據預覽在內的非常多的功能,數據血緣功能正在研發中。

以上是部分功能展示:

登陸頁面:Amundsen的登陸頁面

搜索預覽:查看搜索結果

表的詳細頁面:Hive 等表的可視化

列詳細信息:主要是一些列的統計信息

數據預覽頁面:表數據預覽的可視化,可以與Apache Superset或其他數據可視化工具集成。

集成

Amundsen支持的數據源非常多。

Apache Druid,Apache Hive,CSV,Oracle,

Mysql,Delta Lake等等。

Amundsen還可以連接到任何提供dbapisql_alchemy接口的數據庫。

同時Amundsen還支持和一些儀表盤的集成,比如

Redash,Tableau。

ETL工具的集成,Apache Airflow。

BI可視化工具,Apache Superset。

未來規劃

作爲數據治理領域的未來之星,Amundsen有着非常好的計劃。

2021年願景

可以和所有的數據源進行集成,解決越來越多的數據治理問題。

近期工作重點

數據血緣(設計完成)

集成數據質量系統(進行中)

列值過濾(已開始)

搜索結果層次結構(計劃中)

當然,還有很多計劃中的功能,這裏不一一列舉。

期待未來Amundsen的發展,我們也將對其新版本與新功能的發佈持續關注!


本文分享自微信公衆號 - 實時流式計算(RealtimeBigdata)。
如有侵權,請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章