【開源項目推薦】Great Expectations—開源的數據質量工具

大家好,我是獨孤風。

又到了本週的開源項目推薦。數據質量是企業進行數據治理非常重要的一個環節,高質量的數據對管理決策,業務支撐都有非常重要的作用。
只有持續的數據質量改進才能推動數據治理體系的完善,差勁的數據質量就如同頑固的疾病一樣,如果不能得到及時的改善,最終可能會導致重大的問題。
近幾年來,管理數據質量的工具層出不窮,但是能夠全面的對企業數據質量進行分析與洞察的工具並不多見。
那麼,有沒有好用的開源的數據質量項目呢?
今天爲大家推薦的開源項目,就是一個極爲優秀的數據質量檢查工具,開源的數據質量管理項目。讓我們一起來看看吧~

概述

今天爲大家推薦的開源項目名爲Great Expectations。
Great Expectations是一個開源的數據質量檢查工具,使用了基於機器學習的數據質量自動化管理工作流程。它可以輕鬆地對數據質量進行驗證、建模和監控。用戶以期望(expectations)的形式定義斷言(assertions)。顧名思義,期望是您期望從數據中獲得的質量,斷言則是用聲明性語言編寫的。
例如,下圖的斷言示例定義了passenger_count列的值必須介於1和6之間。

Great Expectations根據這個規則,就會對數據進行驗證,並且能夠自動生成便於閱讀的數據診斷報告。Great Expectations的另一個功能是自動化數據分析。它可以根據統計數據,自動從數據中生成期望。由於數據質量工程師不必從頭開始編寫斷言,因此大幅節省了開發的時間。一旦各種預期準備就緒,它們就可以被合併到數據管道中。

可在大數據流動後臺回覆“GreatExpectations”獲取安裝包,源代碼與學習資料。

功能演示

請參考大數據流動視頻號的功能演示:

如何安裝?

整個Great Expectations的使用流程如下圖所示。

需要python版本爲 3.8 到 3.11。

可以用下面的命令進行安裝。

pip install great_expectations

如果要在python代碼中使用,可以這樣引入。

import great_expectations as gx

隨後建立一個上下文。

context = gx.get_context()

連接數據。

validator = context.sources.pandas_default.read_csv(
    "https://raw.githubusercontent.com/great-expectations/gx_tutorials/main/data/yellow_tripdata_sample_2019-01.csv"
)

定義一個期望

validator.expect_column_values_to_not_be_null("pickup_datetime")
validator.expect_column_values_to_be_between(
    "passenger_count", min_value=1, max_value=6
)
validator.save_expectation_suite()

定義一個檢查點。

checkpoint = context.add_or_update_checkpoint(
    name="my_quickstart_checkpoint",
    validator=validator,
)

隨後執行就可以了。

checkpoint_result = checkpoint.run()

如果要查看結果可以執行下面的命令。

context.view_validation_result(checkpoint_result)

支持的數據源

目前Great Expectations支持如下的數據源。

更多大數據,數據治理,人工智能知識分享,開源項目推薦,學習社羣加入,請關注大數據流動。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章