大家好,我是獨孤風,一位曾經的港口煤炭工人,目前在某國企任大數據負責人,公衆號大數據流動主理人。在最近的兩年的時間裏,因爲公司的需求,還有大數據的發展趨勢所在,我開始學習數據治理的相關知識。今天給大家分享一體化的元數據管理平臺——OpenMetadata。
本文檔基於官網及個人實踐資料整理。後續的文檔請關注公衆號 大數據流動,會持續的更新~
本文分四個部分,分別從開源元數據管理平臺,OpenMetadata簡介,安裝過程和功能演示四個方面來進行。
一、開源元數據管理平臺
元數據管理是企業全面開展數據治理的起點。各種元數據管理工具,元數據管理平臺也層出不窮。
開源的元數據管理平臺很多。開源元數據管理平臺是一種用於收集、存儲和管理數據的工具,它們提供了一種可擴展的方式來組織和維護數據的元數據信息。以下是一些常見的開源元數據管理平臺:
- Apache Atlas:Apache Atlas是一個開源的大數據元數據管理和數據治理平臺,旨在幫助組織收集、整理和管理數據的元數據信息。它提供了豐富的元數據模型和搜索功能,可以與各種數據存儲和處理平臺集成。
- LinkedIn DataHub:LinkedIn DataHub是LinkedIn開源的元數據搜索和發現平臺。它提供了一個集中式的元數據存儲庫,用於管理和瀏覽各種類型的數據集和數據資產的元數據信息。
- Amundsen:Amundsen是Lyft開源的數據發現和元數據管理平臺。它提供了一個用戶友好的界面,使用戶可以搜索、瀏覽和貢獻數據集的元數據信息。Amundsen還支持與其他數據工具和平臺的集成。
- Metacat:Metacat是Netflix開源的數據發現和元數據管理平臺。它提供了一個統一的接口來查找和瀏覽各種數據集的元數據信息,並支持與其他數據工具和服務的集成。
這些開源元數據管理平臺都提供了各種功能,如元數據存儲、搜索、瀏覽、數據資產關係管理、數據血統跟蹤等,幫助組織更好地管理和利用數據的元數據信息。
而今天我們要介紹的OpenMetadata,希望提供一種元數據的管理標準,來讓我們更好的管理元數據。
二、OpenMetadata簡介
OpenMetadata是一個用於數據發現、數據沿襲、數據質量、可觀察性、治理和團隊協作的一體化平臺。它是發展最快的開源項目之一,擁有充滿活力的社區,並被各行業垂直領域的衆多公司採用。OpenMetadata 由基於開放元數據標準/API 的集中式元數據存儲提供支持,支持各種數據服務的連接器,可實現端到端元數據管理,讓您可以自由地釋放數據資產的價值。
目前OpenMetadata在Github標星2.5k,並剛剛更新了1.1版本。
考慮部分同學網絡問題,可在大數據流動後臺回覆“OpenMetadata1.1”進行源碼和安裝包下載,有效期一個月。
OpenMetadata 包括以下內容:
-
元數據模式- 使用類型、實體和實體之間關係的模式定義元數據的核心抽象和詞彙。這是開放元數據標準的基礎。還支持具有自定義屬性的實體和類型的可擴展性。
-
元數據存儲- 存儲連接數據資產、用戶和工具生成的元數據的元數據圖。
-
元數據 API - 用於生成和使用基於用戶界面模式以及工具、系統和服務集成構建的元數據。
-
攝取框架- 用於集成工具並將元數據攝取到元數據存儲的可插入框架,支持大約 55 個連接器。攝取框架支持衆所周知的數據倉庫,如 Google BigQuery、Snowflake、Amazon Redshift 和 Apache Hive;MySQL、Postgres、Oracle 和 MSSQL 等數據庫;Tableau、Superset 和 Metabase 等儀表板服務;消息服務,如 Kafka、Redpanda;以及 Airflow、Glue、Fivetran、Dagster 等管道服務。
-
OpenMetadata 用戶界面- 用戶發現所有數據並就所有數據進行協作的單一位置。
核心功能
- 數據協作- 通過活動源獲取事件通知。使用 webhook 發送警報和通知。添加公告以通知團隊即將發生的更改。添加任務以請求描述或術語表術語批准工作流程。添加用戶提及並使用對話線程進行協作。
- 數據質量和分析器- 標準化測試和數據質量元數據。將相關測試分組爲測試套件。支持自定義SQL數據質量測試。有一個交互式儀表板可以深入瞭解詳細信息。
- 數據血緣- 支持豐富的列級沿襲。有效過濾查詢以提取沿襲。根據需要手動編輯譜系,並使用無代碼編輯器連接實體。
- 全面的角色和策略- 處理複雜的訪問控制用例和分層團隊。
- 連接器- 支持連接到各種數據庫、儀表板、管道和消息傳遞服務的 55 個連接器。
- 術語表- 添加受控詞彙來描述組織內的重要概念和術語。添加詞彙表、術語、標籤、描述和審閱者。
- 數據安全- 支持 Google、Okta、自定義 OIDC、Auth0、Azure、Amazon Cognito 和 OneLogin 作爲 SSO 的身份提供商。此外,還支持 AWS SSO 和 Google 基於 SAML 的身份驗證。
三、安裝過程
主要使用Docker的安裝方式,幾分鐘就可以搞定。
首先查看python版本。
python3 --version
需要python 3.7 3.8 3.9三個版本都可以。
查看docker版本。
docker --version
20.10.0或者更高的版本。
docker compose version
需要docker compose 2.1.1或者更高的版本。
建立文件夾
mkdir openmetadata-docker && cd openmetadata-docker
創建虛擬環境。
python3 -m venv env
虛擬環境生效。
source env/bin/activate
更新pip
pip3 install --upgrade pip setuptools
安裝openmetadata
pip3 install --upgrade "openmetadata-ingestion[docker]"
確定安裝成功
metadata docker --help
啓動容器
metadata docker --start
啓動postgre
metadata docker --start -db postgres
隨後訪問
http://localhost:8585
成功!
四、功能演示
首頁展示
多語言支持
概覽頁面
數據質量監控頁
數據資產
業務術語表功能
一些數據源的配置。
未完待續~
更多大數據、數據治理、人工智能相關知識分享,請關注大數據流動。