袋鼠雲數據中臺專欄2.0 | 數據中臺之數據質量檢測

袋鼠雲數據中臺專欄2.0 | 數據中臺之數據質量檢測

數據中臺如何定義?
企業數據化與數據中臺的關係是什麼?
數據中臺如何支撐企業戰略轉型?

袋鼠雲近兩年來,先後爲國內數十家大型龍頭企業提供數據中臺諮詢與實施落地服務,積累了大量的實戰經驗,同時也在爲客戶服務的過程中,不斷完善和昇華自身的數據中臺理論體系和實踐方法論。希望通過後續文章的分享,與諸位讀者交流,共同加快企業全面數據化進程。

本專欄每週更新1-2篇,敬請期待~

數據中臺如果是一臺機器的話,進入的是數據,輸出的也是數據。但在數據圈子還有另一句話,那就是“垃圾進,垃圾出”。數據質量不行、沒有數據、數據不夠豐富都會大大影響數據應用的最終產出。回想起上一代數據倉庫、數據中心的方案,其建設內容的高度與業務價值並不明顯低於當前方案,而導致其最終沒有落地的核心關鍵點之一,就是「數據源的質量問題」。

當前的數據中臺,作爲一個臺子,向上要支撐數據應用,把應用支撐好。同時向下也要對輸入的數據進行完整的數據質量檢驗。一方面是保證數據和後續應用的質量,另一方面是對企業的主數據管理和數據治理成果進行完整的檢驗。


我們首先對企業的數據有一個結構上的劃分,因爲不同的數據,其質量也有着不同的問題。

袋鼠雲數據中臺專欄2.0 | 數據中臺之數據質量檢測
企業數據分層

我們把應用界面中的數據劃分成:「基礎數據」(對應維表數據),「業務數據」(交易數據、行爲數據),「大數據」(日誌數據、流數據等)。

  • 基礎數據:一般描述的是一個實體,簡單的結構是一個枚舉數據和參照數據,複雜的則是一個業務主體,比如,人員、組織、用戶、客戶、供應商,產品、資產、項目、物料等,描述的就是企業內最核心的幾個實體對象。

  • 業務數據:一般是這些實體對象的行爲,這些行爲中一方面是關於錢的,另一方面是關於數量和質量的都會被優先地記錄下來。

  • 大數據:其實所謂的大數據也大多是關於這些實體的行爲數據,只是這些數據並沒有那麼樣的關鍵和重要,並且大多數存儲在日誌或者非結構化文件中,這些數據顯然不那麼精準,但是也包含了大量的信息。

也許大家會問,那「指標數據」呢?我們這裏把指標數據和「標籤數據」統統歸集到「數據應用」層面,雖然在指標數據和標籤數據的使用中也經常會遇到數據定義不一致,口徑不統一的問題,但是我們不把他們納入數據源數據質量問題的討論範疇中。

當所有的數據被匯聚到數據中臺中的「ODS層」時,數據中臺就有能力對ODS層的數據質量進行整體的分析。分析結果一方面是對前期數據治理項目結果的總結或者是對企業數據治理工作的開展與推進,另一方面是對數據進行中臺整體模型及後續數據應用的一種質量把關工作。我們最終期望在繪製完整「數據供應鏈」的時候,數據源質量檢測的環節能夠佔有很重要的一個位置。因爲數據應用無法產出的原因中最不好解決的無非是沒數據,或者是數據質量不行。

袋鼠雲數據中臺專欄2.0 | 數據中臺之數據質量檢測

詳細展示模型可以參照「袋鼠雲數據資源質量評估體系」等內容。袋鼠數據資源質量評估模塊以相對完整和可視化的方式對數據資源質量進行全方位評估,且將結果進行動態展示用以幫助該環節數據質量提升。

袋鼠雲數據中臺專欄2.0 | 數據中臺之數據質量檢測

我們可以把一些常見的數據質量按照數據類型進行大致的歸類:

  • 基礎數據數據質量

基礎數據的最主要問題就是不統一的問題了,編碼不一致,字段內容缺失,同樣的字段內容版本不同,字段名字重複等。這種情況通過主數據,業務中臺,IDMapping等手段可以有效的解決。

  • 業務數據數據質量

業務數據的常見問題是數據缺失和數據內容與數據模型不符合等問題;比如一個數據表中,明明預留了字段,但是由於各種業務原因,數據沒有數值,或者數據的數值明顯與定義的業務含義不符合。更嚴重的是,整個數據表定義的業務含義和某些條的數據業務定義不符。

筆者在一個企業的發貨數據表中竟然找到了渠道商返利的信息記錄,結果在追問業務方的時候,說是信息系統不支持導致返利業務不支持,只能在這個業務表中臨時增加了一個類別,用以渠道返利。其餘的數據質量問題也是五花八門,但是從數據開發人員的角度講,凡事內容與約定模型有不一致的地方都有可能是數據質量的問題點。

  • 大數據數據質量

大數據的問題相對來說就是噪聲的問題了,因爲大數據畢竟不像業務數據那樣,記錄的是一次交易,時間、地點、人物、數量、金額都不能有一絲差錯,大數據本身就存在了很多的情況,且存儲和記錄都是採用了低成本的方式(日誌,文件,流等),所以大數據肯定是不那麼精確的。但是如果大數據的噪聲數據如果過大的話,也會直接影響計算的準確性。我們往往會通過各種算法或者預製的條件儘量的將數據中的噪音去掉,讓數據結果先達到商用水平。

數據質量的話題還有很多,但是作爲數據中臺,我們目前的期望是能夠對進入中臺的數據進行一步質量的檢測,主要還是爲後續的應用提供支持,也能夠在有應用問題的時候,找到對應的原因和進行必要的整改。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章