【開源項目推薦】通用SQL數據血緣分析工具——Sqllineage

大家好,我是獨孤風,從本週開始,爭取每週爲大家帶來一個優秀的開源項目推薦。

開源項目不僅促進了技術的發展和普及,還爲全球範圍內的開發者和用戶社區建立了一個共享知識、協作和創新的平臺。站在巨人的肩膀上才能看的更遠,我們平時也應該多多關注開源項目,不僅學習其豐富的知識,也要找機會爲開源事業做出自己的貢獻。

話不多說,今天爲大家推薦的開源項目名爲SQLLineage。

SQLLineage 是一個使用 Python 開發的 SQL 血緣分析工具。它專注於提供 SQL 查詢的血緣關係和依賴關係的深入分析。

Github首頁地址爲: https://github.com/reata/sqllineage

目前標星891,最新版本是v1.4.8,主要開發語言爲Python 。

一、概述

簡單來說SQLLineage 是一SQL血緣分析工具,而由於SQL在數據分析中的通用性,SQLLineage 是一數據血緣分析工具。

數據血緣(Data Lineage),也有翻譯爲數據沿襲,都數據血緣(Data Lineage)是指追蹤數據從其源頭到目的地的路徑,包括它在整個數據生命週期中的流動、轉換和使用情況。數據血緣的核心目的是提供對數據流動和變化的完整可視化,從而幫助組織理解數據的來源、經過的處理步驟以及最終如何被利用。

數據血緣是元數據管理的重要組成部分,通過收集獲取元數據可以分析生成數據血緣,這樣可以增加數據透明度,便於審計和合規,也就是說數據血緣在數據安全,數據管理領域意義重大。

而SQLLineage可以通過多SQL的分析來快速的瞭解血緣的來龍去脈,所以說是一個數據血緣的分析神器。

我們假設有這樣的一個SQL。

通過SQLLineage可以快速的分析出表級別的血緣。

也可以分析出列級別的血緣。

這樣的話,數據的前後關係就一目瞭然了。

同時SQLLineage還支持多種SQL語法的解析器,這不管是我們直接拿來用,還是分析其代碼都非常的有幫助。

二、主要特性

SQLLineage 還提供瞭如下的豐富的功能支持。

簡化 SQL 解析: SQLLineage 提供了一個簡單易用的接口來理解 SQL 查詢的源和目標表,無需擔心複雜的 SQL 解析過程。

高效的解析庫: 使用 sqlfluff 和 sqlparse 等庫來解析 SQL 命令,分析 AST,並使用 networkx 圖形庫存儲血緣信息。

易於安裝和使用: 可以通過 PyPI 快速安裝,並通過簡單的命令行操作來解析 SQL 查詢。

一些更高級的用法:

  • 處理多個 SQL 語句: 可以分析包含多個 SQL 語句的查詢,識別中間表。
  • 詳細血緣結果: 提供詳細的血緣分析結果,每個 SQL 語句的血緣信息都可以顯示出來。
  • 方言意識: 支持不同的 SQL 方言,以適應不同的關鍵詞和語法。
  • 列級血緣: 支持列級血緣分析,展示所有列的血緣路徑。
  • 血緣可視化: 支持血緣結果的圖形可視化,可以在瀏覽器中查看錶級和列級血緣的有向無環圖(DAG)表示。

三、安裝部署與使用

SQLLineage 由Python開發而成,所以可以非常方便的使用Python相關組件進行安裝。

安裝

可以直接使用pip安裝

pip install sqllineage

也可以通過github來安裝

pip install git+https://github.com/reata/sqllineage.git

分析

有兩種方式,去解析sql。可以用-e直接分析一個sql語句,這裏分析出了源表和目標表:

$ sqllineage -e "insert into db1.table1 select * from db2.table2"
Statements(#): 1
Source Tables:
    db2.table2
Target Tables:
    db1.table1

也可以用-f來直接分析一個sql文件:

$ sqllineage -f foo.sql
Statements(#): 1
Source Tables:
    db1.table_foo
    db1.table_bar
Target Tables:
    db2.table_baz

對於連續的兩個sql也可以進行分析:

$ sqllineage -e "insert into db1.table1 select * from db2.table2; insert into db3.table3 select * from db1.table1;"
Statements(#): 2
Source Tables:
    db2.table2
Target Tables:
    db3.table3
Intermediate Tables:
    db1.table1

可以用-v指令來看每一個sql的執行結果。

$ sqllineage -v -e "insert into db1.table1 select * from db2.table2; insert into db3.table3 select * from db1.table1;"
Statement #1: insert into db1.table1 select * from db2.table2;
    table read: [Table: db2.table2]
    table write: [Table: db1.table1]
    table cte: []
    table rename: []
    table drop: []
Statement #2: insert into db3.table3 select * from db1.table1;
    table read: [Table: db1.table1]
    table write: [Table: db3.table3]
    table cte: []
    table rename: []
    table drop: []
==========
Summary:
Statements(#): 2
Source Tables:
    db2.table2
Target Tables:
    db3.table3
Intermediate Tables:
    db1.table1

指定分析器

下面的例子,可以使用 --dialect=postgres關鍵字來指定要使用的分析引擎:

$ sqllineage -e "insert into analyze select * from foo;"
Statements(#): 1
Source Tables:
    <default>.foo
Target Tables:
    
$ sqllineage -e "insert into analyze select * from foo;" --dialect=ansi
Statements(#): 1
Source Tables:
    <default>.foo
Target Tables:
    <default>.analyze

$ sqllineage -e "insert into analyze select * from foo;" --dialect=postgres
...
sqllineage.exceptions.InvalidSyntaxException: This SQL statement is unparsable, please check potential syntax error for SQL

提示:用這個命令sqllineage --dialects 看看都有哪些分析器。

列級血緣

可以分析列級血緣,比如下面的sql。

INSERT OVERWRITE TABLE foo
SELECT a.col1,
       b.col1     AS col2,
       c.col3_sum AS col3,
       col4,
       d.*
FROM bar a
         JOIN baz b
              ON a.id = b.bar_id
         LEFT JOIN (SELECT bar_id, sum(col3) AS col3_sum
                    FROM qux
                    GROUP BY bar_id) c
                   ON a.id = sq.bar_id
         CROSS JOIN quux d;

INSERT OVERWRITE TABLE corge
SELECT a.col1,
       a.col2 + b.col2 AS col2
FROM foo a
         LEFT JOIN grault b
              ON a.col1 = b.col1;

可以使用-l關鍵字來進行列級血緣分析

$ sqllineage -f foo.sql -l column
<default>.corge.col1 <- <default>.foo.col1 <- <default>.bar.col1
<default>.corge.col2 <- <default>.foo.col2 <- <default>.baz.col1
<default>.corge.col2 <- <default>.grault.col2
<default>.foo.* <- <default>.quux.*
<default>.foo.col3 <- c.col3_sum <- <default>.qux.col3
<default>.foo.col4 <- col4

可視化

最後可以用下面的指令來啓動一個web瀏覽器,進行血緣展示。

sqllineage -g -f foo.sql

趕緊體驗一下吧~

更多【大數據、數據治理、人工智能知識分享】【開源項目推薦】【學習社羣加入】,請關注大數據流動​。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章