大數據治理體系簡談

大數據治理體系簡談

前言

近幾年以來,隨着互聯網+、大數據、微服務、區塊鏈、人工智能等一系列技術的出現,作爲一名IT人士,如果在工作中不接觸一點這幾類技術,感覺還活在原始社會一樣。

工作中,很多技術都需要自己不斷的學習,不斷的總結,不斷的實踐,本文中,我將根據最近幾年做得一些項目,結合自學的一些相關知識,進行簡單談談我對大數據治理的架構理解。

分類

對於數據而言,業界很多公司都有相應的產品或者解決方案,但是很少有公司能夠對整個數據體系做得很全很強,綜觀其原因,首先:數據概念太過抽象,對於不同行業沒有一個明確的定義;其次,數據範疇太大,很難做全。

一般而言,企業數據從技術層面上,主要可分爲三部分:元數據、主數據、業務數據。幾種數據的定義,我們採用百度百科比較權威的定義,如下:

Ø  元數據:元數據(Metadata)描述數據的數據,對數據及信息資源的描述性信息。

Ø  主數據:主數據(MD Master Data)指系統間共享數據。

Ø  業務數據:業務數據指系統內或系統間交易調用產生的數據。

數據的分類還有很多,本文將不再討論。有興趣的同學可以自己在百度中自行搜索。接下來,我們開始簡單探討本文的重點,數據體系架構。

架構

基於IT技術層面上數據,主要是從數據庫存儲開始,依次到數據治理、數據服務化、數據使用爲止,整體架構如下:

image.png

從圖中可以看出,本架構圖主要有四層,從下往上,依次爲數據庫層、數據治理層、數據服務層、業務調用層,其中數據治理層是本文的重點。

數據治理層從圖中可以看出,左側兩列是數據標準和數據質量,右側是數據交換與數據治理平臺,中間是三層數據體系。

數據標準和數據質量:

對於企業而言,無論是建立一個分公司也好,建立一個部門也罷,總需要建設的標準和管控。同理對於數據而言,無論是用於自己系統交互,還是給第三方系統交互,都需要一個數據標準體系與數據質量監控體系,可能這個體系作用範圍很小,但是體系在建設過程中已經隨之建立,只是如何使用不清楚而已。因此對於數據治理而言,數據標準和數據質量體系的建設,需要整個團隊,甚至企業高層重視。數據標準和數據質量體系的建設,一般都是從上往下,一般都是CTO級別人員牽頭,進行建設。

數據交換與數據治理:

對於建立起來的數據質量和數據標準體系,如何隨着時間的推移,能夠體現在系統中,則需要相應的平臺將標準及質量體系進行流程化,這就是數據交換平臺與數據治理平臺的用武之地。

三層數據體系:

最難理解的可能是元數據,從百度百科中定義來看,元數據是“描述數據的數據”,何爲描述數據的數據,很難理解。

image.png

我這裏舉個例子,每個企業都有人員信息表,具體如上面所示,可能很多人員就已經注意到了,這不就是表的定義嘛,是的,這是表的定義,但在數據領域,表的定義就是元數據,也就是描述數據的數據。那麼問題來了,如果企業內出現描述數據的數據(元數據)不準確怎麼辦?這個對於很多IT人員與業務人員而言,都是非常頭痛的,如果真的一旦出現了元數據不準確,那麼對於後續系統的IT系統或業務系統的建設將是災難性的問題。

舉個例子,平時喜歡玩一些投資的同學都知道,如果要購買基金、債券或者股票,資金都需要託管給銀行,但是每家銀行或者基金公司都同一時期同一家IT公司承建的,在建設過程中,國家的標準、市場的標準、企業標準…等等,都會導致承建後的系統出現不同的定義字段、度量單位等,這樣就會導致多個單位或企業合作交互時,對交易字段、交易單位進行多次覈對,以免出錯。我曾經在一家金融企業中供職,當時早晨很早,業務負責人打電話過來,說昨晚的財務清算有問題,差了兩千多萬,當時我們也很驚訝,財務對賬出問題,財務對賬出問題,應該找對應的業務系統,幹嘛找我們服務總線,抱着配合的心態配合人家進行查問題,查到最後,發現是我們服務總線在對接基金系統的時候數據轉換出了問題(基金是FIX報文,網銀是SOAP報文),在轉換的過程中,接口文檔是基金和網銀協商的,但是協商字段映射做好了,遺漏了金額字段的單位問題,網銀是按照元爲單位,而基金已分爲單位,從而出現雙方金額不一致,導致財務夜間清算出現了差額。

這個問題在當時算一個三級事件,但是導致問題的原因很簡單,就是因爲元數據的字段單位不一致。

再舉一個例子,還是在這個公司,當時隨着區塊鏈的發展,高層領導下達指令,由我們團隊牽頭,做服務治理及服務組合,但是在做得過程中,開始進行元數據摸底,在摸底的過程中,出現了不可思議的現象,一個賬號,在接入服務總線的系統中,居然多達一百多種定義,只英文定義就出現accountNo,accountno,accountNO,actNo…,等數幾十種定義,對於衆多的定義,面臨的直接問題就是一個完整的交易,要進行無數次的字段映射轉換,難度非常大,數據準確性難以保障。

通過以上兩個例子,可以看出,雖然在系統新建的時候,可能還能忍受,但是隨着IT建設不斷完善,系統/服務集成過程中,出現元數據的問題將會非常多,由此可見,元數據的治理還是非常重要的。

相比而言,主數據的建設,現在很多公司已經比較全面了,主數據是企業中比較穩定的數據,能夠給企業直接帶來效益。主數據的建設,通過對識別主數據,並規劃及創建數據模型,從而通過採用一些數據採集工具(如ETL),將數據採集、維護並進行數據分發。

隨着業務量的不斷增大,很多系統原始的數據庫容量已經不足易容納,這樣就可以建立獨立的數據中心進行管控,業務數據中心,一般建議分兩類,近實時數據(保存1~3天),歷史數據(保存4~30天),除此之外,也可以建立大數據中心對數據進行挖掘、分析,甚至納入主數據庫中。

總結

無論對於何種數據,最終的目的均是服務於業務系統,那麼就可以將元數據、主數據、業務數據以及數據標準、數據質量等相關的數據進行服務化,對業務系統進行開放,從而提升企業IT建設。

收尾

本文主要是本人根據自己的理解初次撰寫,如果有問題,歡迎各位指正,謝謝!

QQ:249085877

微信:bx2010

 


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章