數據質量管理方法

數據處理的過程

數據處理的過程一般如下:


數據質量管理(DATA Quality Managenment)是指對上述過程中每個階段可能出現引發數據質量的問題進行識別、監控、預警等相關管理活動。

通過改善和提高組織的管理水平是的數據質量進一步提升。

數據質量管理是一個循環管理的過程,其最終目標是通過可靠的數據,提升數據的使用價值,最終爲企業贏得經濟效益。


數據問題的影響因素

數據問題的來源可能源自上述過程的任一步驟,比如:

  • 數據產生、採集階段:數據的準確性、真實性、完整性、失效性都會影響數據質量
  • 數據存儲、技工階段:會涉及對原始數據的修改,可能導致數據質量問題

數據質量評估方法

評估的維度

對於數據質量,我們一般會從一下幾個維度進行評估

  • 完整性:度量哪些數據丟失了或者哪些數據不可用,描述數據信息缺失的程度,視情況氛圍數據信息記錄缺失和字段信息缺失
  • 一致性:用於度量那些數據的值在信息含義上是衝突
  • 唯一性:用於度量哪些數據是重複數據或哪些數據屬性是重複的額
  • 真實性:用於度量數據是否真實、準確反應客觀的實體存在或真實業務
  • 準確性(可靠性):用於度量那些數據是不準確或無效的
  • 關聯性:用於度量哪些關聯的數據缺失或未建立索引等
  • 時效性(及時性):用於度量是否能在需要的時候獲得相關數據

數據質量管理

數據質量管理我們可以劃分爲三個部分:


事前

  • 梳理指標:確定對象(多表、單表、字段)
  • 制定規則:指定數據質量稽覈規則

事中

  • 數據完整性:一般只數據條目完整性。常用方法爲ODS層數據與抽取庫(業務庫)數據進行數據量對比
  • 數據唯一性:一般指對數據主鍵唯一性校驗,可通過count(1)與cunnt(distinct key)對比
  • 數據非空性:主要分爲兩塊,一是確定是否由於bug導致,是的話反饋問題,不是則需要想辦法補回數據;
    二是對於字段爲空的時候,應該使用缺省值填充
  • 數據有效性:校驗數據是否與數據值域一致,比如範圍、格式之類的,不一致則進行告警或處理
  • 數據準確性:一般分爲兩點,一是數據指標波動稽覈,設置相關閥值;
    二是確定相關的幾個表或字段之間是否存在邏輯衝突
  • 數據及時性:對於數據生成過程進行稽覈,如果超出合理時間則進行告警,查看出問題的點

預警、告警的方法:

  1. 電話告警:一般在緊急、重要、需要及時處理的情況下采用
  2. 郵件告警:不需要及時處理的情況
  3. 短信告警:同郵件告警,不需要及時處理的情況

事後

  • 數據質量報告: 報表的形式展示數據質量模型明細數據
  • 告警以及整改:對於異常任務通知相關責任人,並要求整改
  • 訂閱:訂閱關係數據主題,相關人員進行查看
  • 反推:如果稽覈發現問題不在數據開發,而在業務方,則要求相關業務負責人進行整改

參考資料:老徐數據質量管理分享內容

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章