數據治理系列5:淺談數據質量管理

本文原創地址:https://mp.weixin.qq.com/s/ovSa7Uhv5IyKzyb-l3PHaA,請手機掃描文章末尾的二維碼,關注我們。

題外話:看過之前的文章的小夥伴不難發現,文章開篇幾乎都是定義、概念,這已成了筆者寫文章的一個習慣。本着對專業知識和技術的敬畏以及對文章主題的聚焦,筆者認爲文章的開篇是非常有必要先把概念或定義交待清楚的。

另外,寫公號、寫博客目的是對自己臨散的知識有一個系統化的總結,並希望與業內的各路大神溝通交流,從而在總結和交流中提升自己。所以,歡迎您的點贊和拍磚!

歡迎轉載,轉載請註明出處和作者

作者 | 石秀峯

 

數據質量管理是對數據從計劃、獲取、存儲、共享、維護、應用、消亡生命週期的每個階段裏可能引發的數據質量問題,進行識別、度量、監控、預警等一系列管理活動,並通過改善和提高組織的管理水平使得數據質量獲得進一步提高。數據質量管理的終極目標是通過可靠的數據提升數據在使用中的價值,並最終爲企業贏得經濟效益。”——以上內容摘自百度百科。

 

筆者觀點:“數據質量管理不單純是一個概念,也不單純是一項技術、也不單純是一個系統,更不單純是一套管理流程,數據質量管理是一個集方法論、技術、業務和管理爲一體的解決方案。通過有效的數據質量控制手段,進行數據的管理和控制,消除數據質量問題進而提升企業數據變現的能力。在數據治理過程中,一切業務、技術和管理活動都圍繞這個目標和開展”。

 

一、數據質量問題盤點

接下來我們盤點下企業一般都會遇到哪些數據質量問題:

  • 數據真實性:數據必須真實準確的反映客觀的實體存在或真實的業務,真實可靠的原始統計數據是企業統計工作的靈魂,是一切管理工作的基礎,是經營者進行正確經營決策必不可少的第一手資料。

  • 數據準確性:準確性也叫可靠性,是用於分析和識別哪些是不準確的或無效的數據,不可靠的數據可能會導致嚴重的問題,會造成有缺陷的方法和糟糕的決策。

  • 數據唯一性:用於識別和度量重複數據、冗餘數據。重複數據是導致業務無法協同、流程無法追溯的重要因素,也是數據治理需要解決的最基本的數據問題。

  • 數據完整性:數據完整性問題包括:模型設計不完整,例如:唯一性約束不完整、參照不完整;數據條目不完整,例如:數據記錄丟失或不可用;數據屬性不完整,例如:數據屬性空值。不完整的數據所能借鑑的價值就會大大降低,也是數據質量問題最爲基礎和常見的一類問題。

  • 數據一致性:多源數據的數據模型不一致,例如:命名不一致、數據結構不一致、約束規則不一致。數據實體不一致,例如:數據編碼不一致、命名及含義不一致、分類層次不一致、生命週期不一致……。相同的數據有多個副本的情況下的數據不一致、數據內容衝突的問題。

  • 數據關聯性:數據關聯性問題是指存在數據關聯的數據關係缺失或錯誤,例如:函數關係、相關係數、主外鍵關係、索引關係等。存在數據關聯性問題,會直接影響數據分析的結果,進而影響管理決策。

  • 數據及時性:數據的及時性(In-time)是指能否在需要的時候獲到數據,數據的及時性與企業的數據處理速度及效率有直接的關係,是影響業務處理和管理效率的關鍵指標。

 

二、數據質量問題根因分析

 

說到數據質量問題的原因,做過BI或數倉項目的小夥伴肯定都知道,這是一個業務和技術經常扯來扯去、互相推諉的問題。在很多情況下,企業都會把數據質量問題推給技術部門,讓技術部門去查找和處理。但是企業的數據質量問題真的都是技術引起的嗎,技術部門人一定會說:“這個鍋我不背!”

 

 

其實,影響數據質量的因素主要就技術、業務、管理三個方面,下面我們就來從這三方面分析下產生數據質量問題都有哪些原因。

 

 

1、技術方面

 

  • 數據模型設計的質量問題,例如:數據庫表結構、數據庫約束條件、數據校驗規則的設計開發不合理,造成數據錄入無法校驗或校驗不當,引起數據重複、不完整、不準確。

  • 數據源存在數據質量問題,例如:有些數據是從生產系統採集過來的,在生產系統中這些數據就存在重複、不完整、不準確等問題,而採集過程有沒有對這些問題做清洗處理,這種情況也比較常見。

  • 數據採集過程質量問題, 例如:採集點、採集頻率、採集內容、映射關係等採集參數和流程設置的不正確,數據採集接口效率低,導致的數據採集失敗、數據丟失、數據映射和轉換失敗。

  • 數據傳輸過程的問題,例如:數據接口本身存在問題、數據接口參數配置錯誤、網絡不可靠等都會造成數據傳輸過程中的發生數據質量問題。

  • 數據裝載過程的問題,例如:數據清洗規則、數據轉換規則、數據裝載規則配置有問題。

  • 數據存儲的質量問題,例如:數據存儲設計不合理,數據的存儲能力有限,人爲後臺調整數據,引起的數據丟失、數據無效、數據失真、記錄重複。

  • 業務系統各自爲政,煙囪式建設,系統之間的數據不一致問題嚴重。

 

2、業務方面

 

  • 業務需求不清晰,例如:數據的業務描述、業務規則不清晰,導致技術無法構建出合理、正確的數據模型。

  • 業務需求的變更,這個問題其實是對數據質量影響非常大的,需求一變,數據模型設計、數據錄入、數據採集、數據傳輸、數據裝載、數據存儲等環節都會受到影響,稍有不慎就會導致數據質量問題的發生。

  • 業務端數據輸入不規範,常見的數據錄入問題,如:大小寫、全半角、特殊字符等一不小心就會錄錯。人工錄入的數據質量與錄數據的業務人員密切相關,錄數據的人工作嚴謹、認真,數據質量就相對較好,反之就較差。

  • 數據作假,對,你沒看錯,就是數據作假!操作人員爲了提高或降低考覈指標,對一些數據進行處理,使得數據真實性無法保證。

 

3、管理方面

  • 認知問題。企業管理缺乏數據思維,沒有認識到數據質量的重要性,重系統而輕數據,認爲系統是萬能的,數據質量差些也沒關係。

  • 沒有明確數據歸口管理部門或崗位,缺乏數據認責機制,出現數據質量問題找不到負責人。

  • 缺乏數據規劃,沒有明確的數據質量目標,沒有制定數據質量相關的政策和制度。

  • 數據輸入規範不統一,不同的業務部門、不同的時間、甚至在處理相同業務的時候,由於數據輸入規範不同,造成數據衝突或矛盾。

  • 缺乏有效的數據質量問題處理機制,數據質量問題從發現、指派、處理、優化沒有一個統一的流程和制度支撐,數據質量問題無法閉環。

  • 缺乏有效的數據管控機制,對歷史數據質量檢查、新增數據質量校驗沒有明確和有效的控制措施,出現數據質量問題無法考覈。

 

小結:影響數據質量的因素,可以總結爲兩類,客觀因素和主觀因素。客觀因素:在數據各環節流轉中,由於系統異常和流程設置不當等因素,從而引起的數據質量問題。主觀因素:在數據各環節處理中,由於人員素質低和管理缺陷等因素,從而操作不當而引起的數據質量問題。

 

三、數據質量管理的方法論

 

在數據治理方面,不論是國際的還是國內的,我們能找到很多數據治理成熟度評估模型這樣的理論框架,作爲企業實施的指引。而說到數據質量管理的方法論,其實業內還沒有一套科學、完整的數據質量管理的體系。很多企業對數據質量的重視程度還不夠,即使部分企業在朝着這個方向努力,也是摸着石頭過河。

 

數據是數字化時代企業的重要資產,數據可以以產品或服務的形態爲企業創造價值。既然數據可以是產品、可以是服務,那問題就簡單了。雖然數據質量管理沒有成熟方法論支撐,但是產品和服務的質量管理體系卻已非常的成熟了,何不嘗試用產品和服務的質量管理體系來管理數據質量?!那國際上最權威的質量管理體系IOS9001是否也適用於企業的數據質量管理呢?

 

下圖是ISO9001基於PDCA的質量管理核心思想,其重點強調以客戶爲關注焦點、領導作用、全員參與、過程方法、持續改進、循證決策和關係管理。

注:圖中的數字代表的是本標準在ISO9001的相關章節,無業務含義。以下內容是根據筆者對質量體系相關資料的查閱和粗淺理解,給出數據質量管理的方法論,不免有所偏誤,歡迎拍磚和指正。

 

依據ISO9001以及企業在數據治理方面的相關經驗,筆者認爲企業數據質量管理應從以下幾個方面着手:

 

1、組織環境

我們在數據治理框架、主數據管理、數據標準管理等章節,都提到了組織機構的設置,這裏再次強調一個強有力的數據管理組織的建設是數據治理項目成功的最根本的保證。其作業是兩個層面:一是在制度層面,制定企業數據治理的相關制度和流程,並在企業內推廣,融入企業文化。二是在執行層面,爲各項業務應用提供高可靠的數據。

 

2、數據質量管理方針

爲了改進和提高數據質量,必須從產生數據的源頭開始抓起,從管理入手,對數據運行的全過程進行監控,強化全面數據質量管理的思想觀念,把這一觀念滲透到數據生命週期的全過程。數據質量問題是影響系統運行、業務效率、決策能力的重要因素,在數字化時代,數據質量問題影響的不僅僅是信息化建設的成敗,更是影響企業降本增效、業務創新的核心要素,對於數據質量問題的管理,深度執行的總體策略“垃圾進,垃圾出(garbage in,garbage out)”,採用事前預防控制、事中過程控制、事後監督控制的方式進行數據質量問題的管理和控制,持續提升企業數據質量水平。

 

3、數據質量問題分析

關於質量問題的分析,筆者推薦採用經典的六西格瑪(縮寫:6σ 或 6Sigma),六西格瑪是一種改善企業質量流程管理的技術,以“零缺陷”的完美商業追求,以客戶爲導向,以業界最佳爲目標,以數據爲基礎,以事實爲依據,以流程績效和財務評價爲結果,持續改進企業經營管理的思想方法、實踐活動和文化理念。六西格瑪重點強調質量的持續改進,對於數據質量問題的分析和管理,該方法依然適用。

 

根據六西格瑪的DMAIC模型,我們可以將數據質量分析定義爲六個階段:

 

 

(1)定義階段(D階段)。界定數據質量治理的範圍,並將數據質量改進的方向和內容界定在合理的範圍內。通過使用主數據識別法、專家小組法、問卷調查法、漏斗法等方法,定義出數據治理的對象和範圍。企業數據質量治理對象一般主要包括兩類數據:一類是操作型數據,例如:主數據、參照數據和交易數據。另一類是分析型數據,例如:主題數據、指標數據等。注:根據筆者經驗以及80/20法則,企業的數據質問題80%是由於管理不當或業務操作不規範引起的,參考:《主數據的3大特點、4個超越和三個80/20原則》。

 

(2)測量階段(M階段)。在定義出數據治理對象和內容後,需要選取以下若干個指標來作爲數據質量評價指標,建立數據質量評估模型,對企業的數據進行評估和測量。常用的數據質量評價指標就是我們上述提到的:數據唯一性、數據完整性、數據準確性、數據一致性、數據關聯性、數據及時性等。

 

 

(3)分析階段(A階段)。基於數據質量評估模型,執行數據質量分析任務,通過數據分析,找到發生數據質量問題的重災區,確定出影響數據質量的關鍵因素。數據治理和大數據分析是密不可分的,數據治理的目標是提升數據質量從而提高數據分析的準確性,而大數據分析技術也可反向作用於數據治理,通過大數據分析算法和大數據可視化技術,能夠更準確、更直觀的定位到發生數據質量問題的癥結所在。該階段可以用的大數據技術包括:迴歸分析、因子分析、魚骨圖分析、帕累託分析、矩陣數據分析等。

 

(4)改進階段(I 階段)。通過制定改進管理和業務流程、優化數據質量的方案,消除數據質量問題或將數據質量問題帶來的影響降低到最小程度。我們一直在強調數據質量的優化和提升,絕不單單是技術問題,應從管理和業務入手,找出數據質量問題發生的根因,再對症下藥。同時,數據質量管理是一個持續優化的過程,需要企業全員參與,並逐步培養起全員的數據質量意識和數據思維。該過程主要用到方法:流程再造、績效激勵等。

 

(5)控制階段(C階段)。固化數據標準,優化數據管理流程,並通過數據管理和監控手段,確保流程改進成果,提升數據質量。 主要方法有:標準化、程序化、制度化等。

 

4、數據質量監控

數據質量監控可以分爲數據質量的事前預防控制、事中過程控制和事後監督控制:

 

事前預防控制

建立數據標準化模型,對每個數據元素的業務描述、數據結構、業務規則、質量規則、管理規則、採集規則進行清晰的定義,以上的數據質量的校驗規則、採集規則本身也是一種數據,在元數據中定義。面對龐大的數據種類和結構,如果沒有元數據來描述這些數據,使用者無法準確地獲取所需信息。正是通過元數據,使得數據纔可以被理解、使用,纔會產生價值。構建數據分類和編碼體系,形成企業數據資源目錄,讓用戶能夠輕鬆地查找和定位到相關的數據。實踐告訴我們做好元數據管理,是預防數據質量問題的基礎。

 

 

數據質量問題的預防控制最有效的方法就是找出發生數據質量問題的根本原因並採取相關的策略進行解決。

1)確定根本原因:確定引起數據質量問題的相關因素,並區分它們的優先次序,以及爲解決這些問題形成具體的建議。

2)制定和實施改進方案:最終確定關於行動的具體建議和措施,基於這些建議制定並且執行提高方案,預防未來數據質量問題的發生。

 

事中過程控制

事中數據質量的控制,即在數據的維護和使用過程中去監控和處理數據質量。通過建立數據質量的流程化控制體系,對數據的新建、變更、採集、加工、裝載、應用等各個環節進行流程化控制。數據質量的過程控制,要做好兩個強化:

 

(1)強化數據的標準化生產,從數據的源頭控制好數據質量,該過程可以採用系統自動化校驗和人工干預審覈相結合的方式進行管理,數據的新增和變更一方面通過系統進行數據校驗,對於不符合質量規則的數據不允許保持,另一方面採集流程驅動的數據管理模式,數據的新增和變更操作都需要人工進行審覈,只有審覈通過才能生效。

 

(2)強化數據質量預警機制,對於數據質量邊界模糊的數據採用數據質量預警機制。數據預警機制是對數據相似性和數據關聯性指標的重要控制方法。針對待管理的數據元素,配置數據相似性算法或數據關聯性算法,在數據新增、變更、處理、應用等環節調用預置的數據質量算法,進行相識度或關聯性分析,並給出數據分析的結果。數據預警機制常用在業務活動的交易風險控制等場景。

 

事後監督控制

是不是我們最好了事前預防控制和事中過程控制,就不會再有數據質量問題的發生了?答案顯然是否定的。而事實上,不論我們做了多少預防措施、多嚴格的過程控制,總是還有數據質量問題的“漏網之魚”,你會發現只要是人爲干預的過程,總會存在數據質量的問題。數據質量問題一旦產生就已經是“木已成舟”,爲了避免或減低其對業務的影響,我們需要及時的發現它。這裏,數據質量的事後監督控制就尤爲重要了。

 

定期開展數據質量的檢查和清洗工作應作爲企業數據質量治理的常態工作來抓。

 

1)設置數據質量規則。基於數據的元模型配置數據質量規則,即針對不同的數據對象,配置相應的數據質量指標,不限於:數據唯一性、數據準確性、數據完整性、數據一致性、數據關聯性、數據及時性等。

2)設置數據檢查任務。設置成手動執行或定期自動執行的系統任務,通過執行檢查任務對存量數據進行檢查,形成數據質量問題清單。

3)出具數據質量問題報告。根據數據質量問題清單彙總形成數據質量報告,數據質量報告支持查詢、下載等操作。

4)制定和實施數據質量改進方案,進行數據質量問題的處理。

5)評估與考覈。通過定期對系統開展全面的數據質量狀況評估,從問題率、解決率、解決時效等方面建立評價指標進行整改評估,根據整改優化結果,進行適當的績效考覈。

筆者觀點:數據治理的“常態化”纔是數據質量問題的最好解決方式,而要實現常態化治理就需要改變原來的企業組織形式、管理流程、轉變觀念,以適應這種變化。數據治理的“常態化”要經得起折騰,所以千萬不能老做些重新發明輪子的亊情!

 

5、數據全週期管理

數據的生命週期從數據規劃開始,中間是一個包括設計、創建、處理、部署、應用、監控、存檔、銷燬這幾個階段並不斷循環的過程。企業的數據質量管理應貫穿數據生命週期的全過程,覆蓋數據標準的規劃設計、數據的建模、數據質量的監控、數據問題診斷、數據清洗、優化完善等方面。

 

 

(1)數據規劃。從企業戰略的角度不斷完善企業數據模型的規劃,把數據質量管理融入到企業戰略中,建立數據治理體系,並融入企業文化中。

(2)數據設計。推動數據標準化制定和貫徹執行,根據數據標準化要求統一建模管理,統一數據分類、數據編碼、數據存儲結構,爲數據的集成、交換、共享、應用奠定基礎。

(3)數據創建。利用數據模型保證數據結構完整、一致,執行數據標準、規範數據維護過程,加入數據質量檢查,從源頭系統保證數據的正確性、完整性、唯一性。

(4)數據使用。利用元數據監控數據使用;利用數據標準保證數據正確;利用數據質量檢查加工正確。元數據提供各系統統一的數據模型進行使用,監控數據的來源去向,提供全息的數據地圖支持;企業從技術、管理、業務三個方面進行規範,嚴格執行數據標準,保證數據輸入端的正確性;數據質量提供了事前預防、事中預警、事後補救的三個方面措施,形成完整的數據治理體系。

 

四、總結

數據質量管理是企業數據治理一個重要的組成部分,企業數據治理的所有工作都是圍繞提升數據質量目標而開展的。要做好數據質量的管理,應抓住影響數據質量的關鍵因素,設置質量管理點或質量控制點,從數據的源頭抓起,從根本上解決數據質量問題。對於數據質量問題採用量化管理機制,分等級和優先級進行管理,嚴重的數據質量問題或數據質量事件可以升級爲故障,並對故障進行定義、等級劃分、預置處理方案和Review。量化的數據質量使得我們可以通過統計過程控制對數據質量進行監測。一旦發現異常值或者數據質量的突然惡化,便根據數據產生的邏輯順藤摸瓜找到產生數據的業務環節,然後採用六西格瑪流程改善中的經典分析方法對業務進行完善,真正的做到有的放矢。

(文:石秀峯 2019年5月)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章