【開源項目推薦】Great Expectations—開源的數據質量工具

原創

2024-01-05 13:28

大家好，我是獨孤風。

又到了本週的開源項目推薦。數據質量是企業進行數據治理非常重要的一個環節，高質量的數據對管理決策，業務支撐都有非常重要的作用。
只有持續的數據質量改進才能推動數據治理體系的完善，差勁的數據質量就如同頑固的疾病一樣，如果不能得到及時的改善，最終可能會導致重大的問題。
近幾年來，管理數據質量的工具層出不窮，但是能夠全面的對企業數據質量進行分析與洞察的工具並不多見。
那麼，有沒有好用的開源的數據質量項目呢？
今天爲大家推薦的開源項目，就是一個極爲優秀的數據質量檢查工具，開源的數據質量管理項目。讓我們一起來看看吧~

概述

今天爲大家推薦的開源項目名爲Great Expectations。
Great Expectations是一個開源的數據質量檢查工具，使用了基於機器學習的數據質量自動化管理工作流程。它可以輕鬆地對數據質量進行驗證、建模和監控。用戶以期望(expectations)的形式定義斷言(assertions)。顧名思義，期望是您期望從數據中獲得的質量，斷言則是用聲明性語言編寫的。
例如，下圖的斷言示例定義了passenger_count列的值必須介於1和6之間。

Great Expectations根據這個規則，就會對數據進行驗證，並且能夠自動生成便於閱讀的數據診斷報告。Great Expectations的另一個功能是自動化數據分析。它可以根據統計數據，自動從數據中生成期望。由於數據質量工程師不必從頭開始編寫斷言，因此大幅節省了開發的時間。一旦各種預期準備就緒，它們就可以被合併到數據管道中。

可在大數據流動後臺回覆“GreatExpectations”獲取安裝包，源代碼與學習資料。

功能演示

請參考大數據流動視頻號的功能演示：

如何安裝？

整個Great Expectations的使用流程如下圖所示。

需要python版本爲 3.8 到 3.11。

可以用下面的命令進行安裝。

pip install great_expectations

如果要在python代碼中使用，可以這樣引入。

import great_expectations as gx

隨後建立一個上下文。

context = gx.get_context()

連接數據。

validator = context.sources.pandas_default.read_csv(
    "https://raw.githubusercontent.com/great-expectations/gx_tutorials/main/data/yellow_tripdata_sample_2019-01.csv"
)

定義一個期望

validator.expect_column_values_to_not_be_null("pickup_datetime")
validator.expect_column_values_to_be_between(
    "passenger_count", min_value=1, max_value=6
)
validator.save_expectation_suite()

定義一個檢查點。

checkpoint = context.add_or_update_checkpoint(
    name="my_quickstart_checkpoint",
    validator=validator,
)

隨後執行就可以了。

checkpoint_result = checkpoint.run()

如果要查看結果可以執行下面的命令。

context.view_validation_result(checkpoint_result)

支持的數據源

目前Great Expectations支持如下的數據源。

更多大數據，數據治理，人工智能知識分享，開源項目推薦，學習社羣加入，請關注大數據流動。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【開源項目推薦】Great Expectations—開源的數據質量工具

概述

功能演示

如何安裝？

支持的數據源

高效率使用windows

【開源項目推薦】——純中文本地GPT知識庫搭建項目.assets

下一代APP Store——GPT應用商店GPTs初體驗

數據資產新規！《關於加強數據資產管理的指導意見》發佈（附全文）

【開源項目】輕量元數據管理解決方案——Marquez

元數據管理平臺對比預研 Atlas VS Datahub VS Openmetadata

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結