Github 1.9K Star的數據治理框架-Amundsen

原創

2021-03-23 21:11

Amundsen的使命，整理有關數據的所有信息，並使其具有普遍適用性。

這是Amundsen官網的一句話，對於元數據的管理工作，複雜且繁瑣。可用的工具很多但各有千秋，數據血緣做的較好的應該是Apache Atlas，而數據可視化做的較好的應該是Apache Superset。業界一直需要一個可以整合這些功能，讓數據治理更加的簡單便捷，而這正是Amundsen的使命。

類似於Atlas (Apache)，Datahub (LinkedIn)。Amundsen主要在於提高數據分析師，數據科學家和數據工程師的工作效率。它可以通過爲數據資源建立索引，並通過一定的機制來支持在頁面上進行排名搜索。可以將其視爲搜索功能，但搜索的是元數據。該項目以挪威探險家Roald Amundsen（第一個發現南極的人）的名字命名。

Amundsen由LF AI＆Data基金會維護。LF AI＆Data是Linux Foundation的保護基金會，支持人工智能，機器學習，深度學習和數據方面的開源創新。

目前Amundsen在github有1.9kStar，還沒有Releases的版本，項目正處於蒸蒸日上的上升期。

架構

下圖顯示了Amundsen的總體架構。

可見，Hive，Presto等數據源通過Databuilder ingestion框架獲取元數據，寫入Elasticsearch和Neo4j，通過搜索服務與元數據服務提供給前端。

主要模塊如下：

前端服務

作爲用戶交互的web頁面。

這是基於Flask的Web應用程序，頁面是React構建的。

搜索服務

搜索服務採用Elasticsearch的搜索功能（或者Apache Atlas），並提供一個RESTful API服務。

元數據服務

元數據服務目前使用的Neo4j的圖數據庫進行交互。

功能展示

Amundsen提供了搜索，推薦，表描述，數據預覽在內的非常多的功能，數據血緣功能正在研發中。

以上是部分功能展示：

登陸頁面：Amundsen的登陸頁面

搜索預覽：查看搜索結果

表的詳細頁面：Hive 等表的可視化

列詳細信息：主要是一些列的統計信息

數據預覽頁面：表數據預覽的可視化，可以與Apache Superset或其他數據可視化工具集成。

集成

Amundsen支持的數據源非常多。

Apache Druid，Apache Hive，CSV，Oracle，

Mysql，Delta Lake等等。

Amundsen還可以連接到任何提供dbapi或sql_alchemy接口的數據庫。

同時Amundsen還支持和一些儀表盤的集成，比如

Redash，Tableau。

ETL工具的集成，Apache Airflow。

BI可視化工具，Apache Superset。

未來規劃

作爲數據治理領域的未來之星，Amundsen有着非常好的計劃。

2021年願景

可以和所有的數據源進行集成，解決越來越多的數據治理問題。

近期工作重點

數據血緣（設計完成）

集成數據質量系統（進行中）

列值過濾（已開始）

搜索結果層次結構（計劃中）

當然，還有很多計劃中的功能，這裏不一一列舉。

期待未來Amundsen的發展，我們也將對其新版本與新功能的發佈持續關注！

本文分享自微信公衆號 - 實時流式計算（RealtimeBigdata）。
如有侵權，請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”，歡迎正在閱讀的你也加入，一起分享。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Github 1.9K Star的數據治理框架-Amundsen

架構

前端服務

搜索服務

元數據服務

功能展示

集成

未來規劃

2021年願景

《日本蠟燭圖》讀書筆記 & 技術分析回測

一分鐘部署 Llama3 中文大模型，沒別的，就是快

Python多線程編程深度探索：從入門到實戰

《期貨-市場技術分析》讀書筆記

mongodb處理json數據很好

ffmpeg 百度雲盤

頂級 Javaer 都在用的 20 個類庫，真香！

[轉帖]cpupower

google瀏覽器插件開發

35K*14 薪，入職了！這公司只要不裁員，我能一直呆下去！

ArkTS開發原生鴻蒙HarmonyOS短視頻應用

安全策略增量加速之對象

華爲云云原生FinOps解決方案，釋放雲原生最大價值

三喜臨門！信必優連收三家金融行業客戶表揚信

O2OA開發平臺提供的新版考勤管理

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結