數據倉庫建設持續改進數據質量

 
作者:深圳天源迪科計算機有限公司 秦紅偉 陳國禮 出處:ZDNet 軟件頻道
 

數據倉庫系統的建設過程和方法不同於建設傳統的操作型處理系統的過程和方法,數據倉庫系統建設有兩個難點:一是如何保證數據質量,使得數據準確可信;二是如何構造應用體系,使之滿足不同角色用戶的分析決策需要。

受生產系統現狀的影響,如數據源的數據不完整、不一致,數據抽取時間點不能同步,本地網之間存在市場競爭及業務規則的差異性,各專業之間統計口徑的不一致等,數據質量問題客觀存在,數據質量問題的管控工作將貫穿數據倉庫系統建設的整個過程。數據倉庫系統應用來源於用戶需求,來源於開發商的商業理解,應用的開發和完善也受到數據質量的制約。因此,數據倉庫系統建設需要實現數據和應用的互動。

數據倉庫對數據質量的要求

數據倉庫對數據質量的要求總體上歸納爲:數據完整性,包括數據源是否完整、數據取值是否完整、維度取值是否完整等。數據準確性,包括數據源是否準確、編碼映射關係是否準確、處理邏輯是否準確等。數據覈對準確的判斷是要麼結果一致,要麼不一致但原因是可解釋的。數據一致性,包括源系統之間同一數據是否一致,源數據與抽取的數據是否一致,數據倉庫內部各處理環節數據是否一致等。數據邏輯合理性,主要從業務邏輯的角度判斷數據是否正確,如帳目類型的金額、時長、次數的邏輯關係是否滿足等;月租費用不能出現通話次數、通話時長等。數據時效性,包括數據處理(獲取、整理、加載等)的及時性,數據異常檢測的及時性,數據處理回退的及時性等。

數據倉庫服務於經營決策,經營決策依據的數據應該是全面的、真實可靠的、有意義的。數據時效性如果得不到保證,就可能延誤了市場人員的分析,失去商機。

從數據倉庫的建設過程來看,它本身修復數據以提高數據質量的能力並不是很強,但是它能發現生產系統存在的一些數據質量問題從而提醒用戶哪些數據有質量問題,將數據問題反饋到業務支撐系統中,由後者做數據修正。

源數據質量現狀分析

傳統的業務支撐系統以滿足生產的業務處理爲目標,以內部管理需求爲出發點,各種支撐系統獨立設計,缺乏對企業整體業務流程的考慮,缺乏對資源的有效利用,在企業內部形成了許多信息孤島。主要體現在:

◎數據過於分散,手工處理數據和系統處理數據並存,數據格式多樣。

◎在數據模型上,實體語義定義、屬性定義、命名規則、編碼規則自成體系,難於與其他系統做匹配。

◎系統間存在同一實體數據記錄數不一致的現象,例如計費系統和九七系統中客戶數量不一致。

◎存在信息殘缺現象,沒有完整的統一客戶視圖。

◎在生產系統中存在需要拆分爲具有原子性的數據, 源數據的粒度太粗不能滿足分析要求。

◎在同一省公司,不同本地網出帳時不一樣,造成數據提供時間不統一。

數據質量的改進存在以下難點:

◎數據量大,數據格式不統一。

◎數據質量標準不容易制定。

◎數據清理的邊界不容易定義。

◎生產系統不斷升級改造、人員崗位調整等因素容易造成前清後亂。

由於數據倉庫系統的數據來源於計費、營賬、客服、網管等多種業務系統,在各種源數據的整合過程中常發現不同系統中的數據不一致,同時源數據的質量問題比較突出。在數據倉庫系統建設初期數據質量不高在所難免,這需要在系統建設和使用過程中不斷進行修正和補充,從而逐步完善並最終解決系統的數據質量問題。

數據質量改進目標

目標是清理、標準化、提高和匹配現有數據。

通過數據整合,建立完整的、準確的、一致的統一客戶視圖,完善企業共享信息數據,並使企業共享信息數據服務於經營分析,爲生產系統的改進提供標準。 建立數據整合流程,實現流程定義、流程配置和流程管控。 建立數據整合的規章制度,落實數據質量的分級負責。建立起數據整合隊伍,使數據質量能夠得以持續改進。

數據質量改進是一個持續的過程,在系統建設及應用推廣過程中,需要針對不同重要程度的數據,制定相應的數據質量評測及接受標準。對於階段目標應按照“近期打基礎,中期見成效,長期促戰略”的原則制定。

數據質量改進方法

數據質量控制要從技術、流程和管理三個方面進行。

從技術層面上,生產系統存在的噪音數據、遺漏數據和不一致性數據,需要進行數據清洗;同時需要對源數據做稽覈,如總量稽覈和分量稽覈。

在流程層面上,對於源數據的抽取要遵從一定的業務規則,數據的抽取和轉換需要很多步驟來完成,這就需要將過程流程化,並且流程可通過配置來實現。

在管理層面上,要求生產系統報送數據,按照“誰提供數據,誰負責”的原則由生產系統保證源數據的完整性、準確性、一致性、時效性。

應用推動數據質量改進

數據整合的目的是爲了支撐應用,讓經營分析系統真正能夠被用起來,核心的問題還是要找到應用的“驅動力”。對中國電信而言,滿足精確化管理、精確資源配置、上市公司信息披露要求是重點。

各地的具體情況不同,因此應遵循“因地制宜、總體規劃、分步實施、迅速受益、不斷完善”的原則進行應用推廣。不追求一步到位,建議以點帶面,通過“亮點”應用帶動相關數據質量整改。例如通過收入分析主題,可以發現量收不匹配的問題,促使生產系統檢查收入的計算規則。

這樣通過應用發現數據中存在的問題,並將問題反饋給生產系統;通過應用讓用戶看到效果,調動起用戶的熱情,併爲其樹立起信心;通過應用引起領導的重視,保證資源的有效投入;讓各級部門關注數據問題,讓責任部門有壓力也有動力。

數據質量改進案例分析

從實施中國電信6省營銷分析情況來看,數據質量改進普遍存在如何定義數據質量評價標準、如何實現數據質量管理的閉環過程、如何界定數據質量改進過程中各系統間的功能邊界三個難點問題。

如何定義數據質量評價標準——首先前端、後端、管控部門根據其專業對數據的不同要求,評價標準各有不同(如後端業務支撐部門對數據的要求是保障其系統的正常運行;前端業務部門對數據的要求是真實反映市場情況;管控部門要求數據要和財務報表保持一致)。數據倉庫建設也要結合實際情況,合理制定各階段數據質量評價標準,以保障系統建設的順利進行。

如何實現數據質量管理的閉環過程——在實際操作中,由於沒有形成數據質量的改進閉環,很容易出現“前清後亂”的情況,這需要制定一個完善的數據質量管理流程,以實現數據質量的持續改進。

如何界定數據質量改進過程中各系統間的功能邊界——數據質量問題牽涉到提供源數據的生產系統和數據倉庫系統,在質量改進中必然存在由誰來進行改進的問題,界定改進過程中系統間功能邊界也是數據質量管理的難點問題。

針對這三個問題,通常在各省基本採用以下方法加以解決

◎建立由管理層牽頭的數據管理機構,推動數據質量的改進工作

數據質量改進與管理的關係密不可分。在數據質量的管理上,需要建立一個由省公司主管部門牽頭,相關部門和集成商參與的項目小組負責數據質量標準定義和控制。責任人落實到各個分公司的生產系統業務主管或省公司各生產系統業務主管。如果發現有質量問題向各個本地網分公司進行通報,從而保障了數據質量改進的有效推行。

◎制定可操作的數據質量管理制度

管理部門需要和集成商一起根據實際情況制定可操作的管理制度,主要的管理制度包括,分階段定義的數據質量目標、數據評價辦法、數據管控流程、統一編碼、數據覈對規則等。

◎完善的數據質量控制流程是持續改進的基礎

在進行數據質量改進實施過程中,需要根據數據質量問題的特點制定一套數據質量控制流程,爲提高數據質量水平起到了關鍵的作用。

◎ETL集中監控和元數據管理的技術實現

自行開發了ETL集中監控模塊和元數據管理功能模塊。

在元數據管理中對數據和處理過程做了定義,用戶有了一個數據倉庫地圖。如果數據源或者抽取邏輯發生變化,用戶可以分析對其他元數據的影響。

通過ETL集中監控模塊可以對數據的整體處理流程進行定義;將數據質量評價標準以數據校驗程序化,並作爲流程中的一個環節配置到流程中;用戶可以對處理過程實施監控,對於數據異常能夠及時得到告警信息和錯誤報告。

通過以上措施,在數據質量上可以取得以下實際效果:

數據整合過程得以規範化,也減輕了維護人員的工作負擔。

各級人員對數據質量變得敏感,如果發現有質量問題向各個本地網分公司進行通報,從領導到具體責任人都關心數據質量問題,提高了相關人員對數據質量的重視程度和工作責任心。

數據質量穩步提高,例如通過對計費、九七、渠道系統客戶數據的對比、過濾、合併等方法,使得客戶資料逐步趨於完整和一致。

持續改進思路

通過數據清理,將逐漸形成完整和準確的企業數據視圖,爲經營分析和生產支撐提供可靠的數據來源。

由於數據源系統會不斷升級,同時經營分析系統的數據模型也存在優化和發展。數據質量是一個持續改進、反覆迭代、螺旋上升的過程。數據質量任重道遠,不可能一勞永逸,要作爲長期的任務來抓。

例如在客戶資料的清理上,可以按照“先大客戶,然後商業客戶,再次公衆客戶”,在客戶屬性上“先保證客戶消費屬性,後社會屬性”的思路做清理。對每一種客戶類型也可以劃分成幾個階段:

第一階段 整理客戶、用戶、帳戶三戶模型,通過歸併、篩選、補充等方法在現有生產系統上先建立起統一的客戶標識、帳戶標識、用戶(銷售品實例)標識;建立起客戶與用戶之間的對應關係、客戶與帳戶的對應關係,用戶與帳戶之間的對應關係。

第二階段 整理產品/銷售品,定義新的產品目錄表,按產品/優惠套餐定義銷售品目錄;將原有產品映射到新定義的產品目錄表中;將新功能映射成附屬產品;並定義出產品與產品實例對應關係、產品實例間的對應關係、產品實例與定價計劃和客戶協議之間的對應關係。

第三階段 補充客戶社會屬性,通過第一階段和第二階段建立起客戶消費屬性,再通過CRM系統和CSS系統補充客戶社會屬性,形成統一的企業客戶視圖。

發佈了48 篇原創文章 · 獲贊 1 · 訪問量 5062
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章