數據倉庫建設持續改進數據質量 (一)

數據倉庫建設持續改進數據質量 (一)

開發者在線 Builder.com.cn 更新時間:2006-07-12作者:原作者 深圳天源迪科計算機有限公司 秦紅偉 陳國禮 來源:

本文關鍵詞: Datawarehousing

數據倉庫系統的建設過程和方法不同於建設傳統的操作型處理系統的過程和方法,數據倉庫系統建設有兩個難點:一是如何保證數據質量,使得數據準確可信;二是如何構造應用體系,使之滿足不同角色用戶的分析決策需要。

受生產系統現狀的影響,如數據源的數據不完整、不一致,數據抽取時間點不能同步,本地網之間存在市場競爭及業務規則的差異性,各專業之間統計口徑的不一致等,數據質量問題客觀存在,數據質量問題的管控工作將貫穿數據倉庫系統建設的整個過程。數據倉庫系統應用來源於用戶需求,來源於開發商的商業理解,應用的開發和完善也受到數據質量的制約。因此,數據倉庫系統建設需要實現數據和應用的互動。

數據倉庫對數據質量的要求

數據倉庫對數據質量的要求總體上歸納爲:數據完整性,包括數據源是否完整、數據取值是否完整、維度取值是否完整等。數據準確性,包括數據源是否準確、編碼映射關係是否準確、處理邏輯是否準確等。數據覈對準確的判斷是要麼結果一致,要麼不一致但原因是可解釋的。數據一致性,包括源系統之間同一數據是否一致,源數據與抽取的數據是否一致,數據倉庫內部各處理環節數據是否一致等。數據邏輯合理性,主要從業務邏輯的角度判斷數據是否正確,如帳目類型的金額、時長、次數的邏輯關係是否滿足等;月租費用不能出現通話次數、通話時長等。數據時效性,包括數據處理(獲取、整理、加載等)的及時性,數據異常檢測的及時性,數據處理回退的及時性等。

數據倉庫服務於經營決策,經營決策依據的數據應該是全面的、真實可靠的、有意義的。數據時效性如果得不到保證,就可能延誤了市場人員的分析,失去商機。

從數據倉庫的建設過程來看,它本身修復數據以提高數據質量的能力並不是很強,但是它能發現生產系統存在的一些數據質量問題從而提醒用戶哪些數據有質量問題,將數據問題反饋到業務支撐系統中,由後者做數據修正。

源數據質量現狀分析

傳統的業務支撐系統以滿足生產的業務處理爲目標,以內部管理需求爲出發點,各種支撐系統獨立設計,缺乏對企業整體業務流程的考慮,缺乏對資源的有效利用,在企業內部形成了許多信息孤島。主要體現在:

◎數據過於分散,手工處理數據和系統處理數據並存,數據格式多樣。

◎在數據模型上,實體語義定義、屬性定義、命名規則、編碼規則自成體系,難於與其他系統做匹配。

◎系統間存在同一實體數據記錄數不一致的現象,例如計費系統和九七系統中客戶數量不一致。

◎存在信息殘缺現象,沒有完整的統一客戶視圖。

◎在生產系統中存在需要拆分爲具有原子性的數據, 源數據的粒度太粗不能滿足分析要求。

◎在同一省公司,不同本地網出帳時不一樣,造成數據提供時間不統一。

數據質量的改進存在以下難點:

◎數據量大,數據格式不統一。

◎數據質量標準不容易制定。

◎數據清理的邊界不容易定義。

◎生產系統不斷升級改造、人員崗位調整等因素容易造成前清後亂。

由於數據倉庫系統的數據來源於計費、營賬、客服、網管等多種業務系統,在各種源數據的整合過程中常發現不同系統中的數據不一致,同時源數據的質量問題比較突出。在數據倉庫系統建設初期數據質量不高在所難免,這需要在系統建設和使用過程中不斷進行修正和補充,從而逐步完善並最終解決系統的數據質量問題。

數據質量改進目標

目標是清理、標準化、提高和匹配現有數據。

通過數據整合,建立完整的、準確的、一致的統一客戶視圖,完善企業共享信息數據,並使企業共享信息數據服務於經營分析,爲生產系統的改進提供標準。 建立數據整合流程,實現流程定義、流程配置和流程管控。 建立數據整合的規章制度,落實數據質量的分級負責。建立起數據整合隊伍,使數據質量能夠得以持續改進。

數據質量改進是一個持續的過程,在系統建設及應用推廣過程中,需要針對不同重要程度的數據,制定相應的數據質量評測及接受標準。對於階段目標應按照“近期打基礎,中期見成效,長期促戰略”的原則制定。

數據質量改進方法

數據質量控制要從技術、流程和管理三個方面進行。

從技術層面上,生產系統存在的噪音數據、遺漏數據和不一致性數據,需要進行數據清洗;同時需要對源數據做稽覈,如總量稽覈和分量稽覈。

在流程層面上,對於源數據的抽取要遵從一定的業務規則,數據的抽取和轉換需要很多步驟來完成,這就需要將過程流程化,並且流程可通過配置來實現。

在管理層面上,要求生產系統報送數據,按照“誰提供數據,誰負責”的原則由生產系統保證源數據的完整性、準確性、一致性、時效性。

應用推動數據質量改進

數據整合的目的是爲了支撐應用,讓經營分析系統真正能夠被用起來,核心的問題還是要找到應用的“驅動力”。對中國電信而言,滿足精確化管理、精確資源配置、上市公司信息披露要求是重點。

各地的具體情況不同,因此應遵循“因地制宜、總體規劃、分步實施、迅速受益、不斷完善”的原則進行應用推廣。不追求一步到位,建議以點帶面,通過“亮點”應用帶動相關數據質量整改。例如通過收入分析主題,可以發現量收不匹配的問題,促使生產系統檢查收入的計算規則。

這樣通過應用發現數據中存在的問題,並將問題反饋給生產系統;通過應用讓用戶看到效果,調動起用戶的熱情,併爲其樹立起信心;通過應用引起領導的重視,保證資源的有效投入;讓各級部門關注數據問題,讓責任部門有壓力也有動力。

發佈了48 篇原創文章 · 獲贊 1 · 訪問量 5057
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章