數據質量理論與經驗

本文轉載自微信公衆號「數倉與大數據」,作者otw30 。轉載本文請聯繫數倉與大數據公衆號。

數據質量管理是對數據從計劃、收集、記錄、存儲、回收、分析和展示生命週期的每個階段裏可能引發的數據質量問題,進行識別、度量、監控、預警等一系列管理活動,並通過改善和提高組織的管理水平使得數據質量獲得進一步提高。數據質量管理的終極目標是通過可靠的數據提升數據在使用中的價值,並最終爲企業贏得經濟效益。”——以上內容摘自百度百科。

筆者觀點:“數據質量管理不單純是一個概念,也不單純是一項技術、也不單純是一個系統,更不單純是一套管理流程,數據質量管理是一個集方法論、技術、業務和管理爲一體的解決方案。通過有效的數據質量控制手段,進行數據的管理和控制,消除數據質量問題進而提升企業數據變現的能力。在數據治理過程中,一切業務、技術和管理活動都圍繞這個目標和開展”。

備註:我覺得最後一句話不太嚴謹,因爲數據質量只是數據治理的一個子集。

注:以上總結摘抄自公衆號“談數據”,作者石秀峯

0x00 聊聊四個常見的數據管理知識體系

網上數據質量相關的文章真多,而且閱讀量都還挺高,很多數據方面的號主也喜歡反覆寫。由此可見,數據質量對於數據工作者的重要性非常之高。

DAMA 知識體系

國際數據管理協會(DAMA 國際)是一個全球性的專業組織,成立於 1980 年,一直致力於數據管理和數字化的研究、實踐及相關知識體系的建設。主要包含兩部分:DAMA 數據管理知識體系和專業考試認證。

DAMA 數據管理知識體系(DMBOK框架),有車輪圖(由 11 個數據管理職能領域)和環境因素六邊形圖(包含 7 個基本環境要素)構成。其中,數據管理職能包括數據治理、數據架構、數據建模和設計、數據存儲和操作、數據安全、數據集成和互操作、文檔和內容管理、參考數據和主數據管理、數據倉庫與商務智能、元數據管理、數據質量管理。基本環境要素包括目標與原則、組織與文化、工具、活動、角色和職責、交付成果、技術。

DAMA 金字塔圖(Aiken 金字塔)中的四個階段

DAMA 金字塔圖,從數據、信息到知識逐層遞進,將數據管理知識劃分爲四個階段,指導大家分階段學習 DAMA 知識體系和開展數據管理工作。

專業考試認證,在國外的名稱是數據管理專業人員認證( CDMP ),引入國內後,DAMA 中國對 CDMP 進行了適當本地化重構。分爲:數據治理工程師( CDGA)和數據治理專家( CDGP ),三個證書國際通用。

對於個人來說,想長期從事數據管理方面工作,有證和沒證多少還是有些區別的。退一步講,不爲考證,學點知識也是好的。

數據管理成熟度評估模型

DCMM 是國家工信部信軟司主導,具有中國特色,在數據管理領域的國家級標準。是企業數據管理能力建設的指導性理論和能力評估標準。

DCMM 建設概念圖

DCMM 等級定義

DCMM 將數據管理能力成熟度劃分爲五個等級,自低向高依次爲初始級、受管理級、穩健級、量化管理級和優化級,不同等級代表企業數據管理和應用的成熟度水平不同。

當然了,國家的認證對很多企業還是很有吸引力的,這不還有人付費求 DCMM 評估申請材料模板的:付費求一套文件!!!

最近國家層面的數據管理證書 CDP(Certified DCMM Professional)也馬上要出臺了,該證書也是依賴於 DCMM 體系。喜大普奔!工信部數據管理人才證書!!!

數據治理

數據治理概念也是這幾年國內的熱點了,數據方向的面試也經常被問到,但每個人對其理解差異也很大。

這裏給出認可讀比較高的 DAMA 國際的定義:數據治理是對數據資產的管理活動行使權力和控制的活動集合(規劃、監控和執行)。

數據治理是一個大而全的知識體系。在數據管理的幾乎所有領域(或者數據生產加工應用全流程),數據治理都應該參與其中,保證數據管理能夠朝着一個更好的方向發展。

對於已經構建好的數據體系,我們需要蒐集現有問題並排列好優先級,做爲數據治理工作的階段性目標,比如數據質量、成本控制、數據規範、數據模型、數據安全等等。

數據資產管理

數據管理的概念從 80 年代提出已經接近 40 年了,數據治理的提法也有近 20年了,而數據資產管理的提出基本是最近 5 年的事情。

數據資產(Data Asset)是指由企業擁有或者控制的,能夠爲企業帶來未來經濟利益的,以物理或電子的方式記錄的數據資源,如文件資料、電子數據等。在企業中,並非所有的數據都構成數據資產, 數據資產是能夠爲企業產生價值的數據資源。

數據資產管理(DAM,Data Asset Management)是指規劃、控制和提供數據及信息資產的一組業務職能,包括開發、執行和監督有關 數據的計劃、政策、方案、項目、流程、方法和程序,從而控制、保 護、交付和提高數據資產的價值。數據資產管理是需要充分融合業務、 技術和管理,來確保數據資產保值增值。

企業管理數據資產就是通過對數據的生命週期的管理,提高數據資產質量,促進數據在“內增值,外增效”兩方面的價值變現。數據先被規範性定義、創建或獲得,然後存儲、維護和使用,最終被銷燬。數據的生命週期開始於數據獲取之前,企業先期制定數據規劃、定義 數據規範,以期獲得實現數據採集、交付、存儲和控制所需的技術能 力。數據資產管理一般來說包括統籌規劃、管理實施、稽覈檢查和資 產運營四個主要階段。

數據資產的落地手段:

  • 在底層包括數據資產目錄、數據分級分類、數據地圖、數據安全和數據質量保障機制。
  • 在上層我們需要建立指標體系、標籤體系。
  • 最後我們需要建立起一套有效的評估體系,去檢測數據管理成本和數據應用價值。

數據倉庫

這個就不必再做介紹了。本系列主題部分共計十篇,數據治理是單獨的一篇,可見其重要性。但如果有人問我,數據倉庫最重要的是什麼,我會回答數據應用和數據質量。

我們所有數據管理工作開展的終極目標就是獲取信息創造價值(瞭解業務現狀、預測趨勢、支持決策、發現商機、輔助運營、數據交易等等),而價值的最終體現基本上都在應用上,比如各種報表、分析報告、用戶畫像、運營支撐、風控,甚至數據交易、聯合建模。當然這個價值可以是現在的也可以是未來的。

數據的各種應用解決了數據怎麼用的問題,我們依託應用去創造價值。而數據質量是應用能夠最終真正有用的必要條件。試想一下錯誤的數據、缺失的數據、遲到的數據對於數據的價值體現,輕則無法使用,重則造成決策失誤引起重大損失。

0x01 五大數據質量評估標準

從數據本身的角度:完整性、準確性、一致性、時效性(及時+有效)。

從數據使用的角度:可訪問性。

完整性

完整性是指數據的記錄和信息是否完整,是否存在數據缺失情況。數據缺失主要包括記錄的缺失和重要字段信息的缺失,兩者都會造成統計結果不準確。

完整性是數據質量最基礎的保障。

例如,某個穩定業務的數據量每天約爲 100 萬條記錄,某天突然下降了 1 萬條,則可能是出現了記錄缺失。

例如,某科高考成績表中,每個考卷分數都對應一個准考證號,當準考證號字段的空值數大於0時,則可能是出現了信息缺失。

一致性

一致性通常體現在跨度很大的數據倉庫中。

例如,某公司有很多業務數倉分支,對於同一份數據,在不同的數倉分支中必須保證一致性。

例如,從在線業務庫加工到數據倉庫,再到各個數據應用節點,用戶 ID 必須保持同一種類型,且長度也要保持一致。因此,您需要設計數倉的公共層以確保數據的一致性。

準確性

準確性是指數據中記錄的信息和數據是否準確、是否存在異常或者錯誤的信息。

例如,成績單中分數出現負數或訂單中出現錯誤的買家信息等,這些數據都是問題數據。

確保記錄的準確性也是保證數據質量必不可少的一部分。

時效性

包含兩部分:及時+有效。保障數據的及時產出才能體現數據的價值,同時對於部分時間敏感型的數據也必須在有效期內使用纔行。

例如,決策分析師通常希望每天上班時候前就能看到前一天的數據。若等待時間過長,數據失去了及時性的價值,數據分析工作將失去意義。

例如,運維人員需要在收到故障告警的同時立刻能夠拿到關鍵的運行日誌數據,以便更快的排查問題恢復系統。

有效性

指數據的值、格式和展現形式符合數據定義和業務定義的要求。好吧,這個可以拿掉,應該也是屬於準確性的範疇吧。

可訪問性

對數據用戶來講,最核心的需求是當他們需要用數據的時候,這些數據是可以被訪問的。他們想知道企業有哪些數據?存放在哪裏?以及如何訪問到這些數據?我們看到很多數據平臺提供的統一數據資源目錄功能就是解決這個問題的。

數據質量問題,可以分爲這麼三類:

  • 源端數據問題(不準確、不一致、不完整、不可訪問)
  • 數據處理問題(同步集成、計算、存儲、查詢)(不準確、不一致、不完整、不及時、不可訪問)。
  • 數據口徑不一致、各方理解偏差(不準確、不一致)。

數據質量保障,是一個系統化的工程,我們需要全局協調一致纔行。爲了讓大家有更深刻的體會,接下來,我們從三個角度分別給大家闡述。

0x02 技術業務管理三位一體的保障體系

技術

我們需要保證數據從源端到最終應用端流轉過程中的數據質量,一方面我們需要提高每一位數據開發者的技術能力來提高模型和 ETL 的設計與落地質量,另一方面我們使用數據質量工具來對 ETL 過程進行監控。對於源端的數據問題,有時候也可以通過技術手段解決,比如編碼映射、ID-Mapping、缺失值補全等等。

  • 數據模型設計的質量問題,例如:數據庫表結構、數據庫約束條件、數據校驗規則的設計開發不合理,造成數據錄入無法校驗或校驗不當,引起數據重複、不完整、不準確。
  • 數據源存在數據質量問題,例如:有些數據是從生產系統採集過來的,在生產系統中這些數據就存在重複、不完整、不準確等問題,而採集過程有沒有對這些問題做清洗處理,這種情況也比較常見。
  • 數據採集過程質量問題, 例如:採集點、採集頻率、採集內容、映射關係等採集參數和流程設置的不正確,數據採集接口效率低,導致的數據採集失敗、數據丟失、數據映射和轉換失敗。
  • 數據傳輸過程的問題,例如:數據接口本身存在問題、數據接口參數配置錯誤、網絡不可靠等都會造成數據傳輸過程中的發生數據質量問題。
  • 數據裝載過程的問題,例如:數據清洗規則、數據轉換規則、數據裝載規則配置有問題。
  • 數據存儲的質量問題,例如:數據存儲設計不合理,數據的存儲能力有限,人爲後臺調整數據,引起的數據丟失、數據無效、數據失真、記錄重複。
  • 系統之間的數據不一致問題。

業務

有時候,數據質量問題的根本原因是業務問題造成的,我們就需要從業務着手解決。

我們需要有業務專家或者業務部門參與,統一數據口徑、糾正理解偏差、通過深入的溝通明確業務方訴求。

數據質量改進的驅動因素永遠來自業務目標,不能脫離業務需求談數據質量。制定數據質量改進方案的基礎,首先是清晰定義業務需求,然後是根據業務需求對企業業務的長期影響來定義數據質量問題的優先級。衡量業務影響、定義問題優先級有助於明確治理目標並跟進數據質量改進的進度。

  • 業務需求不清晰,例如:數據的業務描述、業務規則不清晰,導致技術無法構建出合理、正確的數據模型。
  • 業務需求的變更,這個問題其實是對數據質量影響非常大的,需求一變,數據模型設計、數據錄入、數據採集、數據傳輸、數據裝載、數據存儲等環節都會受到影響,稍有不慎就會導致數據質量問題的發生。
  • 業務端數據輸入不規範,常見的數據錄入問題,如:大小寫、全半角、特殊字符等一不小心就會錄錯。人工錄入的數據質量與錄數據的業務人員密切相關,錄數據的人工作嚴謹、認真,數據質量就相對較好,反之就較差。
  • 數據作假,對,你沒看錯,就是數據作假!操作人員爲了提高或降低考覈指標,對一些數據進行處理,使得數據真實性無法保證。

管理

技術再努力起到的作用畢竟有限,有些事情必須通過管理手段去約束。通過管理使得規範得以貫徹,通過管理來提高團隊成員的數據質量意識,通過管理手段去協調各個參與方提高效率。

可以建立數據質量保障委員會,源端團隊負責人、數據團隊負責人、業務團隊負責人,都要參與其中。統一規劃頂層設計,制定統一數據架構、數據標準,設計數據質量的管理機制,採用分類處理的方式持續提升數據質量。源端的數據問題最好在源端解決,建立指標體系統一各方的數據口徑,明確數據問題的責任誰的問題誰解決。

總之,只有管理上重視了,整體工作纔好開展。

  • 認知問題。企業管理缺乏數據思維,沒有認識到數據質量的重要性,重系統而輕數據,認爲系統是萬能的,數據質量差些也沒關係。
  • 沒有明確數據歸口管理部門或崗位,缺乏數據認責機制,出現數據質量問題找不到負責人。
  • 缺乏數據規劃,沒有明確的數據質量目標,沒有制定數據質量相關的政策和制度。
  • 數據輸入規範不統一,不同的業務部門、不同的時間、甚至在處理相同業務的時候,由於數據輸入規範不同,造成數據衝突或矛盾。
  • 缺乏有效的數據質量問題處理機制,數據質量問題從發現、指派、處理、優化沒有一個統一的流程和制度支撐,數據質量問題無法閉環。
  • 缺乏有效的數據管控機制,對歷史數據質量檢查、新增數據質量校驗沒有明確和有效的控制措施,出現數據質量問題無法考覈。

小結:影響數據質量的因素,可以總結爲兩類,客觀因素和主觀因素。客觀因素:在數據各環節流轉中,由於系統異常和流程設置不當等因素,從而引起的數據質量問題。主觀因素:在數據各環節處理中,由於人員素質低和管理缺陷等因素,從而操作不當而引起的數據質量問題。

0x03 數據全週期管理保障體系

數據的生命週期從數據規劃開始,中間是一個包括設計、創建、處理、部署、應用、監控、存檔、銷燬這幾個階段並不斷循環的過程。企業的數據質量管理應貫穿數據生命週期的全過程,覆蓋數據標準的規劃設計、數據的建模、數據質量的監控、數據問題診斷、數據清洗、優化完善等方面。

數據規劃。從企業戰略的角度不斷完善企業數據模型的規劃,把數據質量管理融入到企業戰略中,建立數據治理體系,並融入企業文化中。

數據設計。推動數據標準化制定和貫徹執行,根據數據標準化要求統一建模管理,統一數據分類、數據編碼、數據存儲結構,爲數據的集成、交換、共享、應用奠定基礎。

數據創建。利用數據模型保證數據結構完整、一致,執行數據標準、規範數據維護過程,加入數據質量檢查,從源頭系統保證數據的正確性、完整性、唯一性。

數據使用。利用元數據監控數據使用;利用數據標準保證數據正確;利用數據質量檢查加工正確。元數據提供各系統統一的數據模型進行使用,監控數據的來源去向,提供全息的數據地圖支持;企業從技術、管理、業務三個方面進行規範,嚴格執行數據標準,保證數據輸入端的正確性;數據質量提供了事前預防、事中預警、事後補救的三個方面措施,形成完整的數據治理體系。

0x04 數據流轉鏈路保障體系

數據源。源端的數據問題,最好在源端解決。有時候基於降低下游計算複雜度而對源端做些改造也是必要的。源端解決不了的問題需要跟數據應用端協商一致制定改造方案。

數據集成存儲計算。通過制定規範保證設計和開發的高質量開展減少錯誤,通過數據質量稽覈工具及時發現數據問題,通過監控告警程序實時發現並處理 ETL 任務異常。

數據應用。統一口徑、糾正理解偏差。

0x05 數據處理前中後三階段保障體系

事前預防控制。數據開發人員需要提高保證數據質量意識,同時組織內構建完善的數倉規範,保障模型設計、ETL 開發等核心流程的優質方法論能夠切實得到貫徹。

事中過程控制。通過建立一套切實可行的數據質量監控體系、設計數據質量稽覈規則、加強從數據源頭控制數據質量、把控整個數倉設計和開發過程,形成覆蓋數據全生命週期的數據質量管理。

事後監督控制。出現數據質量問題,清晰定位數據技術責任人,進行整改迭代,保證數據質量管理形成一個良性循環,實現數據向優質資產的轉變。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章