【開源項目推薦】通用SQL數據血緣分析工具——Sqllineage

原創

獨孤風

2023-12-05 13:32

大家好，我是獨孤風，從本週開始，爭取每週爲大家帶來一個優秀的開源項目推薦。

開源項目不僅促進了技術的發展和普及，還爲全球範圍內的開發者和用戶社區建立了一個共享知識、協作和創新的平臺。站在巨人的肩膀上才能看的更遠，我們平時也應該多多關注開源項目，不僅學習其豐富的知識，也要找機會爲開源事業做出自己的貢獻。

話不多說，今天爲大家推薦的開源項目名爲SQLLineage。

SQLLineage 是一個使用 Python 開發的 SQL 血緣分析工具。它專注於提供 SQL 查詢的血緣關係和依賴關係的深入分析。

Github首頁地址爲： https://github.com/reata/sqllineage

目前標星891，最新版本是v1.4.8，主要開發語言爲Python 。

一、概述

簡單來說SQLLineage 是一SQL血緣分析工具，而由於SQL在數據分析中的通用性，SQLLineage 是一數據血緣分析工具。

數據血緣（Data Lineage），也有翻譯爲數據沿襲，都數據血緣（Data Lineage）是指追蹤數據從其源頭到目的地的路徑，包括它在整個數據生命週期中的流動、轉換和使用情況。數據血緣的核心目的是提供對數據流動和變化的完整可視化，從而幫助組織理解數據的來源、經過的處理步驟以及最終如何被利用。

數據血緣是元數據管理的重要組成部分，通過收集獲取元數據可以分析生成數據血緣，這樣可以增加數據透明度，便於審計和合規，也就是說數據血緣在數據安全，數據管理領域意義重大。

而SQLLineage可以通過多SQL的分析來快速的瞭解血緣的來龍去脈，所以說是一個數據血緣的分析神器。

我們假設有這樣的一個SQL。

通過SQLLineage可以快速的分析出表級別的血緣。

也可以分析出列級別的血緣。

這樣的話，數據的前後關係就一目瞭然了。

同時SQLLineage還支持多種SQL語法的解析器，這不管是我們直接拿來用，還是分析其代碼都非常的有幫助。

二、主要特性

SQLLineage 還提供瞭如下的豐富的功能支持。

簡化 SQL 解析: SQLLineage 提供了一個簡單易用的接口來理解 SQL 查詢的源和目標表，無需擔心複雜的 SQL 解析過程。

高效的解析庫: 使用 sqlfluff 和 sqlparse 等庫來解析 SQL 命令，分析 AST，並使用 networkx 圖形庫存儲血緣信息。

易於安裝和使用: 可以通過 PyPI 快速安裝，並通過簡單的命令行操作來解析 SQL 查詢。

一些更高級的用法：

處理多個 SQL 語句: 可以分析包含多個 SQL 語句的查詢，識別中間表。
詳細血緣結果: 提供詳細的血緣分析結果，每個 SQL 語句的血緣信息都可以顯示出來。
方言意識: 支持不同的 SQL 方言，以適應不同的關鍵詞和語法。
列級血緣: 支持列級血緣分析，展示所有列的血緣路徑。
血緣可視化: 支持血緣結果的圖形可視化，可以在瀏覽器中查看錶級和列級血緣的有向無環圖（DAG）表示。

三、安裝部署與使用

SQLLineage 由Python開發而成，所以可以非常方便的使用Python相關組件進行安裝。

安裝

可以直接使用pip安裝

pip install sqllineage

也可以通過github來安裝

pip install git+https://github.com/reata/sqllineage.git

分析

有兩種方式，去解析sql。可以用-e直接分析一個sql語句，這裏分析出了源表和目標表:

$ sqllineage -e "insert into db1.table1 select * from db2.table2"
Statements(#): 1
Source Tables:
    db2.table2
Target Tables:
    db1.table1

也可以用-f來直接分析一個sql文件:

$ sqllineage -f foo.sql
Statements(#): 1
Source Tables:
    db1.table_foo
    db1.table_bar
Target Tables:
    db2.table_baz

對於連續的兩個sql也可以進行分析:

$ sqllineage -e "insert into db1.table1 select * from db2.table2; insert into db3.table3 select * from db1.table1;"
Statements(#): 2
Source Tables:
    db2.table2
Target Tables:
    db3.table3
Intermediate Tables:
    db1.table1

可以用-v指令來看每一個sql的執行結果。

$ sqllineage -v -e "insert into db1.table1 select * from db2.table2; insert into db3.table3 select * from db1.table1;"
Statement #1: insert into db1.table1 select * from db2.table2;
    table read: [Table: db2.table2]
    table write: [Table: db1.table1]
    table cte: []
    table rename: []
    table drop: []
Statement #2: insert into db3.table3 select * from db1.table1;
    table read: [Table: db1.table1]
    table write: [Table: db3.table3]
    table cte: []
    table rename: []
    table drop: []
==========
Summary:
Statements(#): 2
Source Tables:
    db2.table2
Target Tables:
    db3.table3
Intermediate Tables:
    db1.table1

指定分析器

下面的例子，可以使用 --dialect=postgres關鍵字來指定要使用的分析引擎:

$ sqllineage -e "insert into analyze select * from foo;"
Statements(#): 1
Source Tables:
    <default>.foo
Target Tables:
    
$ sqllineage -e "insert into analyze select * from foo;" --dialect=ansi
Statements(#): 1
Source Tables:
    <default>.foo
Target Tables:
    <default>.analyze

$ sqllineage -e "insert into analyze select * from foo;" --dialect=postgres
...
sqllineage.exceptions.InvalidSyntaxException: This SQL statement is unparsable, please check potential syntax error for SQL

提示：用這個命令sqllineage --dialects 看看都有哪些分析器。

列級血緣

可以分析列級血緣，比如下面的sql。

INSERT OVERWRITE TABLE foo
SELECT a.col1,
       b.col1     AS col2,
       c.col3_sum AS col3,
       col4,
       d.*
FROM bar a
         JOIN baz b
              ON a.id = b.bar_id
         LEFT JOIN (SELECT bar_id, sum(col3) AS col3_sum
                    FROM qux
                    GROUP BY bar_id) c
                   ON a.id = sq.bar_id
         CROSS JOIN quux d;

INSERT OVERWRITE TABLE corge
SELECT a.col1,
       a.col2 + b.col2 AS col2
FROM foo a
         LEFT JOIN grault b
              ON a.col1 = b.col1;

可以使用-l關鍵字來進行列級血緣分析

$ sqllineage -f foo.sql -l column
<default>.corge.col1 <- <default>.foo.col1 <- <default>.bar.col1
<default>.corge.col2 <- <default>.foo.col2 <- <default>.baz.col1
<default>.corge.col2 <- <default>.grault.col2
<default>.foo.* <- <default>.quux.*
<default>.foo.col3 <- c.col3_sum <- <default>.qux.col3
<default>.foo.col4 <- col4

可視化

最後可以用下面的指令來啓動一個web瀏覽器，進行血緣展示。

sqllineage -g -f foo.sql

趕緊體驗一下吧~

更多【大數據、數據治理、人工智能知識分享】【開源項目推薦】【學習社羣加入】，請關注大數據流動。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【開源項目推薦】通用SQL數據血緣分析工具——Sqllineage

一、概述

二、主要特性

三、安裝部署與使用

安裝

分析

指定分析器

列級血緣

可視化

【開源項目推薦】——純中文本地GPT知識庫搭建項目.assets

下一代APP Store——GPT應用商店GPTs初體驗

數據資產新規！《關於加強數據資產管理的指導意見》發佈（附全文）

【開源項目】輕量元數據管理解決方案——Marquez

元數據管理平臺對比預研 Atlas VS Datahub VS Openmetadata

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結