棧問棧答 | 關於袋鼠雲數棧,產品經理在線官方解答

1.jpg


袋鼠雲數棧3.0版本開始實現商業化以來,已經應用到教育行業、政府行業、旅遊行業的浙江大學、山西商務廳、中金易雲、京東方、杭州互聯網法院、西溪國家溼地公園、西湖風景名勝區、國家電網、雲南中煙、常州旅遊商貿高等職業技術學校等衆多客戶,幫助客戶搭建和升級大數據計算開發平臺,管理大規模數據資源,用工具化和可視化的方式高效進行數據治理,對數據資產進行創新應用,在複雜多元的業務場景中發揮數據價值。

在客戶實際使用數棧的過程中,也有一些用戶對數棧的功能、使用、價值提出了不少疑問,袋鼠雲數棧產品團隊將這些問題都一一認真收集下來,並收錄在“棧問棧答”系列專欄裏,和所有的數棧用戶分享,敬請期待。


棧問棧答 · 數據質量

使用袋鼠雲數棧的某教育行業客戶,在之前的信息化過程中建設了多個系統,已經意識到自身數據孤立的現狀,面對TB級的數據量,需要更高效的方式進行數據治理和分析,爲業務方提供高質量數據。

其實,數據治理不僅僅是教育行業用戶的痛點,同樣也是其他行業進行大數據平臺建設和數據應用,最亟需解決的難題。

針對這一問題,袋鼠雲數棧基於十年實踐經驗沉澱的多種校驗規則,打造了完整的全流程數據質量閉環管理機制,同時支持數據遷移&邏輯變更的雙表逐行校驗場景。


2.jpg


類似以下問題,袋鼠雲數棧都能統統搞定!

A:有很多ETL任務,任務運行正常,由於數據源有變動,或開發修改了代碼,測試不充分,導致數據經常出問題。最後還是業務方發現後,才反饋給開發排查原因。


使用數棧

可對關鍵任務配置數據質量校驗規則,任務跑完產出數據,並經過質量校驗通過後,才流入到下游,給到數據需求方。


3.jpg


B:開發人員維護ETL任務,由於業務規則的變更或者新需求的迭代,需要經常修改ETL任務邏輯。每次修改後比對數據,耗費大量的時間。


使用數棧

通過數據質量產品的雙表校驗功能,自動比對修改前,修改後的數據,輸出比對結果,無需人工干預。


4.jpg


C:需要把在某平臺運行的任務遷移到另外一個平臺,同時保證遷移前後數據的一致性。以往則需要人工或寫程序進行校驗,真的是費時費力。


使用數棧

通過數據質量產品的雙表校驗功能,自動比對遷移前後的兩個平臺的數據,輸出比對結果。


5.jpg


Vol.1 棧問棧答 


棧問:在數據抽取的過程中,數棧能否對數據的正確性進行判斷?

棧答:對這個問題,數棧可以提供2個解決方法:一種是在數據同步環節就進行髒數據相關的配置;還有一種是在數據加工全流程環節進行數據質量監控的配置;

也就是說,從數據的同步到整個數據加工全流程,袋鼠雲數棧都非常重視數據質量和數據治理,保障用戶數字化建設過程數據資產的高質量。


解法一、髒數據配置

在數據同步執行的過程中可能會出現因主鍵衝突、格式轉換錯誤等各種原因造成部分數據無法正常寫入,不能被正常寫入的數據即被視爲“髒數據”。

髒數據配置在數據同步配置模塊中,在數據同步任務的通道控制步驟中,可配置是否需要記錄髒數據,並可指定存儲髒數據的表名、生命週期。


6.jpg

袋鼠雲數棧-髒數據配置模塊


棧問:如何查看髒數據,對數據質量做到心中有數?

棧答:在數棧-任務管理-髒數據管理模塊中可以查看髒數據的產生趨勢、產生髒數據最多的任務,以及每一張產生髒數據表的情況:


7.jpg

數棧-髒數據查看


髒數據產生趨勢

選中某個任務後,可以查看此任務在最近一段時間產生髒數據的數量,支持最近3天、7天、30天、60天的數據查看。


髒數據產生TOP30任務

通過觀察產生髒數據數量較大的任務,可以針對性的排查此任務的配置信息、源數據庫的數據質量等問題,及時解決問題。


解法二、數據質量配置

作爲數據資產管理的一部分,數據質量的保障與提升是一個大數據平臺所需的必備功能。通常含義的數據質量包括及時性、完整性、一致性、有效性、準確性。

數據質量模塊可以根據不同的業務場景,針對數據表提供錶行數、空值數、空值率、重複數、重複率等二十餘種統計函數,校驗方法支持固定值檢測、1天波動檢測、7天波動值變化檢測、30天波動值檢測、7天平均波動檢測、30天平均波動檢測,告警閥值支持靈活的自定義。


棧問:如何使用數棧創建質量監控任務?

棧答:創建質量監控任務分爲以下3個步驟:


8.jpg

數棧-創建數據質量監控任務


Step1:選擇數據源,選擇需要校驗的表

點擊頂部菜單的規則配置-新建監控規則,進入配置頁面,選擇需要進行檢測的數據表(表名爲 muyun_test),點擊下一步。


Step2:針對全表、每個字段配置校驗規則

進入監控規則步驟,點擊添加字段規則,並選中id字段,統計函數選擇空值數,校驗方法爲固定值,閾值配置爲=0,點擊保存,並點擊下一步。


Step3:調度週期配置

選擇調度週期爲天,其他參數無需修改,點擊新建,即可完成配置。


棧問:我們數據庫一部分用的是Oracle,一部分是MySQL,你們數棧支持哪些數據源的校驗和數據質量管理?

棧答:數棧數據質量模塊支持MySQL,Oracle,SQL Server,

PostgreSQL,Hive,MaxCompute等多種數據源,滿足大多數場景下的質量校驗需求。


棧問:數棧的數據校驗顆粒度到什麼級別?

棧答:基於阿里數據生產的實戰經驗,數棧內置20餘種校驗規則,支持表級、字段級2類規則,並提供字段級、表級校驗報告,具備歷史數據統計功能,輔助用戶定位數據質量的問題根源。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章