數據處理的過程
數據處理的過程一般如下:
數據質量管理(DATA Quality Managenment)是指對上述過程中每個階段可能出現引發數據質量的問題進行識別、監控、預警等相關管理活動。
通過改善和提高組織的管理水平是的數據質量進一步提升。
數據質量管理是一個循環管理的過程,其最終目標是通過可靠的數據,提升數據的使用價值,最終爲企業贏得經濟效益。
數據問題的影響因素
數據問題的來源可能源自上述過程的任一步驟,比如:
- 數據產生、採集階段:數據的準確性、真實性、完整性、失效性都會影響數據質量
- 數據存儲、技工階段:會涉及對原始數據的修改,可能導致數據質量問題
數據質量評估方法
評估的維度
對於數據質量,我們一般會從一下幾個維度進行評估
- 完整性:度量哪些數據丟失了或者哪些數據不可用,描述數據信息缺失的程度,視情況氛圍數據信息記錄缺失和字段信息缺失
- 一致性:用於度量那些數據的值在信息含義上是衝突
- 唯一性:用於度量哪些數據是重複數據或哪些數據屬性是重複的額
- 真實性:用於度量數據是否真實、準確反應客觀的實體存在或真實業務
- 準確性(可靠性):用於度量那些數據是不準確或無效的
- 關聯性:用於度量哪些關聯的數據缺失或未建立索引等
- 時效性(及時性):用於度量是否能在需要的時候獲得相關數據
數據質量管理
數據質量管理我們可以劃分爲三個部分:
事前
- 梳理指標:確定對象(多表、單表、字段)
- 制定規則:指定數據質量稽覈規則
事中
- 數據完整性:一般只數據條目完整性。常用方法爲ODS層數據與抽取庫(業務庫)數據進行數據量對比
- 數據唯一性:一般指對數據主鍵唯一性校驗,可通過count(1)與cunnt(distinct key)對比
- 數據非空性:主要分爲兩塊,一是確定是否由於bug導致,是的話反饋問題,不是則需要想辦法補回數據;
二是對於字段爲空的時候,應該使用缺省值填充 - 數據有效性:校驗數據是否與數據值域一致,比如範圍、格式之類的,不一致則進行告警或處理
- 數據準確性:一般分爲兩點,一是數據指標波動稽覈,設置相關閥值;
二是確定相關的幾個表或字段之間是否存在邏輯衝突 - 數據及時性:對於數據生成過程進行稽覈,如果超出合理時間則進行告警,查看出問題的點
預警、告警的方法:
- 電話告警:一般在緊急、重要、需要及時處理的情況下采用
- 郵件告警:不需要及時處理的情況
- 短信告警:同郵件告警,不需要及時處理的情況
事後
- 數據質量報告: 報表的形式展示數據質量模型明細數據
- 告警以及整改:對於異常任務通知相關責任人,並要求整改
- 訂閱:訂閱關係數據主題,相關人員進行查看
- 反推:如果稽覈發現問題不在數據開發,而在業務方,則要求相關業務負責人進行整改
參考資料:老徐數據質量管理分享內容