一體化元數據管理平臺——OpenMetadata入門寶典

大家好,我是獨孤風,一位曾經的港口煤炭工人,目前在某國企任大數據負責人,公衆號大數據流動主理人。在最近的兩年的時間裏,因爲公司的需求,還有大數據的發展趨勢所在,我開始學習數據治理的相關知識。今天給大家分享一體化的元數據管理平臺——OpenMetadata。

本文檔基於官網及個人實踐資料整理。後續的文檔請關注公衆號 大數據流動,會持續的更新~

本文分四個部分,分別從開源元數據管理平臺,OpenMetadata簡介,安裝過程和功能演示四個方面來進行。

一、開源元數據管理平臺

元數據管理是企業全面開展數據治理的起點。各種元數據管理工具,元數據管理平臺也層出不窮。

開源的元數據管理平臺很多。開源元數據管理平臺是一種用於收集、存儲和管理數據的工具,它們提供了一種可擴展的方式來組織和維護數據的元數據信息。以下是一些常見的開源元數據管理平臺:

  1. Apache Atlas:Apache Atlas是一個開源的大數據元數據管理和數據治理平臺,旨在幫助組織收集、整理和管理數據的元數據信息。它提供了豐富的元數據模型和搜索功能,可以與各種數據存儲和處理平臺集成。
  2. LinkedIn DataHub:LinkedIn DataHub是LinkedIn開源的元數據搜索和發現平臺。它提供了一個集中式的元數據存儲庫,用於管理和瀏覽各種類型的數據集和數據資產的元數據信息。
  3. Amundsen:Amundsen是Lyft開源的數據發現和元數據管理平臺。它提供了一個用戶友好的界面,使用戶可以搜索、瀏覽和貢獻數據集的元數據信息。Amundsen還支持與其他數據工具和平臺的集成。
  4. Metacat:Metacat是Netflix開源的數據發現和元數據管理平臺。它提供了一個統一的接口來查找和瀏覽各種數據集的元數據信息,並支持與其他數據工具和服務的集成。

這些開源元數據管理平臺都提供了各種功能,如元數據存儲、搜索、瀏覽、數據資產關係管理、數據血統跟蹤等,幫助組織更好地管理和利用數據的元數據信息。

而今天我們要介紹的OpenMetadata,希望提供一種元數據的管理標準,來讓我們更好的管理元數據。

二、OpenMetadata簡介

OpenMetadata是一個用於數據發現、數據沿襲、數據質量、可觀察性、治理和團隊協作的一體化平臺。它是發展最快的開源項目之一,擁有充滿活力的社區,並被各行業垂直領域的衆多公司採用。OpenMetadata 由基於開放元數據標準/API 的集中式元數據存儲提供支持,支持各種數據服務的連接器,可實現端到端元數據管理,讓您可以自由地釋放數據資產的價值。

目前OpenMetadata在Github標星2.5k,並剛剛更新了1.1版本。

考慮部分同學網絡問題,可在大數據流動後臺回覆“OpenMetadata1.1”進行源碼和安裝包下載,有效期一個月。

OpenMetadata 包括以下內容:

  • 元數據模式- 使用類型、實體和實體之間關係的模式定義元數據的核心抽象和詞彙。這是開放元數據標準的基礎。還支持具有自定義屬性的實體和類型的可擴展性。

  • 元數據存儲- 存儲連接數據資產、用戶和工具生成的元數據的元數據圖。

  • 元數據 API - 用於生成和使用基於用戶界面模式以及工具、系統和服務集成構建的元數據。

  • 攝取框架- 用於集成工具並將元數據攝取到元數據存儲的可插入框架,支持大約 55 個連接器。攝取框架支持衆所周知的數據倉庫,如 Google BigQuery、Snowflake、Amazon Redshift 和 Apache Hive;MySQL、Postgres、Oracle 和 MSSQL 等數據庫;Tableau、Superset 和 Metabase 等儀表板服務;消息服務,如 Kafka、Redpanda;以及 Airflow、Glue、Fivetran、Dagster 等管道服務。

  • OpenMetadata 用戶界面- 用戶發現所有數據並就所有數據進行協作的單一位置。

核心功能

  • 數據協作- 通過活動源獲取事件通知。使用 webhook 發送警報和通知。添加公告以通知團隊即將發生的更改。添加任務以請求描述或術語表術語批准工作流程。添加用戶提及並使用對話線程進行協作。
  • 數據質量和分析器- 標準化測試和數據質量元數據。將相關測試分組爲測試套件。支持自定義SQL數據質量測試。有一個交互式儀表板可以深入瞭解詳細信息。
  • 數據血緣- 支持豐富的列級沿襲。有效過濾查詢以提取沿襲。根據需要手動編輯譜系,並使用無代碼編輯器連接實體。
  • 全面的角色和策略- 處理複雜的訪問控制用例和分層團隊。
  • 連接器- 支持連接到各種數據庫、儀表板、管道和消息傳遞服務的 55 個連接器。
  • 術語表- 添加受控詞彙來描述組織內的重要概念和術語。添加詞彙表、術語、標籤、描述和審閱者。
  • 數據安全- 支持 Google、Okta、自定義 OIDC、Auth0、Azure、Amazon Cognito 和 OneLogin 作爲 SSO 的身份提供商。此外,還支持 AWS SSO 和 Google 基於 SAML 的身份驗證。

三、安裝過程

主要使用Docker的安裝方式,幾分鐘就可以搞定。

首先查看python版本。

python3 --version

需要python 3.7 3.8 3.9三個版本都可以。

查看docker版本。

docker --version

20.10.0或者更高的版本。

docker compose version

需要docker compose 2.1.1或者更高的版本。

建立文件夾

mkdir openmetadata-docker && cd openmetadata-docker

創建虛擬環境。

python3 -m venv env

虛擬環境生效。

source env/bin/activate

更新pip

pip3 install --upgrade pip setuptools

安裝openmetadata

pip3 install --upgrade "openmetadata-ingestion[docker]"

確定安裝成功

metadata docker --help

啓動容器

metadata docker --start

啓動postgre

metadata docker --start -db postgres

隨後訪問

 http://localhost:8585

成功!

四、功能演示

首頁展示

多語言支持

概覽頁面

數據質量監控頁

數據資產

業務術語表功能

一些數據源的配置。

未完待續~

更多大數據、數據治理、人工智能相關知識分享,請關注大數據流動。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章