Amundsen的使命,整理有關數據的所有信息,並使其具有普遍適用性。
這是Amundsen官網的一句話,對於元數據的管理工作,複雜且繁瑣。可用的工具很多但各有千秋,數據血緣做的較好的應該是Apache Atlas,而數據可視化做的較好的應該是Apache Superset。業界一直需要一個可以整合這些功能,讓數據治理更加的簡單便捷,而這正是Amundsen的使命。
類似於Atlas (Apache),Datahub (LinkedIn)。Amundsen主要在於提高數據分析師,數據科學家和數據工程師的工作效率。它可以通過爲數據資源建立索引,並通過一定的機制來支持在頁面上進行排名搜索。可以將其視爲搜索功能,但搜索的是元數據。該項目以挪威探險家Roald Amundsen(第一個發現南極的人)的名字命名。
Amundsen由LF AI&Data基金會維護。LF AI&Data是Linux Foundation的保護基金會,支持人工智能,機器學習,深度學習和數據方面的開源創新。
目前Amundsen在github有1.9kStar,還沒有Releases的版本,項目正處於蒸蒸日上的上升期。
架構
下圖顯示了Amundsen的總體架構。
可見,Hive,Presto等數據源通過Databuilder ingestion框架獲取元數據,寫入Elasticsearch和Neo4j,通過搜索服務與元數據服務提供給前端。
主要模塊如下:
前端服務
作爲用戶交互的web頁面。
這是基於Flask的Web應用程序,頁面是React構建的。
搜索服務
搜索服務採用Elasticsearch的搜索功能(或者Apache Atlas),並提供一個RESTful API服務。
元數據服務
元數據服務目前使用的Neo4j的圖數據庫進行交互。
功能展示
Amundsen提供了搜索,推薦,表描述,數據預覽在內的非常多的功能,數據血緣功能正在研發中。
以上是部分功能展示:
登陸頁面:Amundsen的登陸頁面
搜索預覽:查看搜索結果
表的詳細頁面:Hive 等表的可視化
列詳細信息:主要是一些列的統計信息
數據預覽頁面:表數據預覽的可視化,可以與Apache Superset或其他數據可視化工具集成。
集成
Amundsen支持的數據源非常多。
Apache Druid,Apache Hive,CSV,Oracle,
Mysql,Delta Lake等等。
Amundsen還可以連接到任何提供dbapi
或sql_alchemy
接口的數據庫。
同時Amundsen還支持和一些儀表盤的集成,比如
Redash,Tableau。
ETL工具的集成,Apache Airflow。
BI可視化工具,Apache Superset。
未來規劃
作爲數據治理領域的未來之星,Amundsen有着非常好的計劃。
2021年願景
可以和所有的數據源進行集成,解決越來越多的數據治理問題。
近期工作重點
數據血緣(設計完成)
集成數據質量系統(進行中)
列值過濾(已開始)
搜索結果層次結構(計劃中)
當然,還有很多計劃中的功能,這裏不一一列舉。
期待未來Amundsen的發展,我們也將對其新版本與新功能的發佈持續關注!
本文分享自微信公衆號 - 實時流式計算(RealtimeBigdata)。
如有侵權,請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。