大家好,我是獨孤風。
又到了本週的開源項目推薦。數據質量是企業進行數據治理非常重要的一個環節,高質量的數據對管理決策,業務支撐都有非常重要的作用。
只有持續的數據質量改進才能推動數據治理體系的完善,差勁的數據質量就如同頑固的疾病一樣,如果不能得到及時的改善,最終可能會導致重大的問題。
近幾年來,管理數據質量的工具層出不窮,但是能夠全面的對企業數據質量進行分析與洞察的工具並不多見。
那麼,有沒有好用的開源的數據質量項目呢?
今天爲大家推薦的開源項目,就是一個極爲優秀的數據質量檢查工具,開源的數據質量管理項目。讓我們一起來看看吧~
概述
今天爲大家推薦的開源項目名爲Great Expectations。
Great Expectations是一個開源的數據質量檢查工具,使用了基於機器學習的數據質量自動化管理工作流程。它可以輕鬆地對數據質量進行驗證、建模和監控。用戶以期望(expectations)的形式定義斷言(assertions)。顧名思義,期望是您期望從數據中獲得的質量,斷言則是用聲明性語言編寫的。
例如,下圖的斷言示例定義了passenger_count列的值必須介於1和6之間。
Great Expectations根據這個規則,就會對數據進行驗證,並且能夠自動生成便於閱讀的數據診斷報告。Great Expectations的另一個功能是自動化數據分析。它可以根據統計數據,自動從數據中生成期望。由於數據質量工程師不必從頭開始編寫斷言,因此大幅節省了開發的時間。一旦各種預期準備就緒,它們就可以被合併到數據管道中。
可在大數據流動後臺回覆“GreatExpectations”獲取安裝包,源代碼與學習資料。
功能演示
請參考大數據流動視頻號的功能演示:
如何安裝?
整個Great Expectations的使用流程如下圖所示。
需要python版本爲 3.8 到 3.11。
可以用下面的命令進行安裝。
pip install great_expectations
如果要在python代碼中使用,可以這樣引入。
import great_expectations as gx
隨後建立一個上下文。
context = gx.get_context()
連接數據。
validator = context.sources.pandas_default.read_csv(
"https://raw.githubusercontent.com/great-expectations/gx_tutorials/main/data/yellow_tripdata_sample_2019-01.csv"
)
定義一個期望
validator.expect_column_values_to_not_be_null("pickup_datetime")
validator.expect_column_values_to_be_between(
"passenger_count", min_value=1, max_value=6
)
validator.save_expectation_suite()
定義一個檢查點。
checkpoint = context.add_or_update_checkpoint(
name="my_quickstart_checkpoint",
validator=validator,
)
隨後執行就可以了。
checkpoint_result = checkpoint.run()
如果要查看結果可以執行下面的命令。
context.view_validation_result(checkpoint_result)
支持的數據源
目前Great Expectations支持如下的數據源。
更多大數據,數據治理,人工智能知識分享,開源項目推薦,學習社羣加入,請關注大數據流動。