大數據治理關鍵技術解析

本文轉自微信號EAWorld。掃描下方二維碼,關注成功後,回覆“普元方法+”,將會獲得熱門課堂免費學習機會!

在企業數據建設過程中,大數據治理受到越來越多的重視。從企業數據資產管理和提升數據質量,到自服務和智能化的數據應用,大數據治理的內容在不斷地發展和完善,其落地實施的過程中會遇到各種各樣的難題和挑戰。本篇文章通過分析大數據治理建設中的溝溝坎坎,總結出了大數據治理需要具備的能力和關鍵技術。

本文目錄:
一、困難重重卻充滿光明的大數據治理髮展之路
二、大數據治理技術需要不斷革新
三、如何選擇合適的大數據治理工具?
四、總結

一、困難重重卻充滿光明的大數據治理髮展之路

傳統數據治理一直無法逃脫的魔咒

大數據治理從建設內容和實施目標上可以劃分成不同的階段,每個階段完成不同的任務,隨着階段的遞進,建設內容逐步加深,不同的企業切入點和訴求也各不相同。大致分爲以下幾個階段:

摸家底階段
內容:企業元數據梳理和採集
目標:構建企業數據資產庫

建體系
內容:建立企業標準和質量提升體系
目標:提升數據質量

促應用
內容:自服務通道、構建企業知識圖譜
目標:數據智能應用

圖片描述

然而,大數據治理建設之路並不是一帆風順的,甚至說是充滿各種問題和困難,如何管理企業級的數據資產、如何讓業務積極參與到數據建設中來、如何降低數據治理的落地難度等一系列問題,一直困擾着數據治理的發展,傳統數據治理的問題主要體現在以下幾個方面:

圖片描述

管理範圍窄
要做數據治理首先要知道有哪些數據,傳統的數據治理往往只管理了數據領域,很少關注業務、管理和開發相關的數據資產,數據管理範圍比較窄,而且,受限於技術實現,即使在數據領域的數據資產也很難做到精確管理;

業務難結合
業務元數據的廣泛缺失,導致業務人員無法使用技術性的元數據系統,元數據缺乏業務用戶,使用者少;

應用場景缺
元數據被當成單獨的系統,而不是廣泛的技術基礎,導致只關心元數據本身的應用場景;

技術不完善
在技術層面存儲缺乏擴展性,採集自動程度不高,管理實時性不高。

自服務大數據治理是解決問題之道

自服務的大數據治理平臺具備管理、開發、共享、使用等能力,通過自動、自助、智能化的大數據治理,能夠實現對數據的找、供、用、治,從而一站式解決傳統數據治理在大數據時代的各種難題,具體涉及到以下幾個方面。

(1)建好數據管理體系,快速識別數據

自服務大數據治理平臺可以實現有數據可管理。現在的企業數據資產繁雜衆多,特別是建設大數據平臺的企業,數據的類型、分佈、實現技術、所屬部門等都很繁雜,通過手工一點點梳理是不現實的,如何低成本、快速有效地將數據梳理和管理起來?這是做大數據治理遇到的第一個坎。

自服務大數據治理平臺可以通過自動化手段,自動識別企業數據資產並標明數據方位和屬性,建立業務能理解的數據服務目錄。

圖片描述

(2)建立數據治理體系,監控並快速發現問題

自服務大數據治理平臺可以保障企業數據資產的質量。企業內數據環境複雜,很容易出現數據不一致、數據不及時、數據缺失等一系列問題,如何識別並快速定位數據問題?特別是針對海量數據,如何在不影響性能情況下找出問題數據?這是做大數據治理遇到的第二個坎。

通過自服務大數據治理平臺建立和支撐起基於數據指標、質量檢核、問題發現和監控的完善數據治理體系,從事前、事中和事後等各個環節規避、發現和解決數據問題,將能保證數據應用無後顧之憂。

圖片描述

(3)建立數據應用體系,共享和高效使用數據

自服務大數據治理平臺可以實現數據自助應用體系。不論是數據的管理,還是數據的治理,最終的目的都是支持數據的應用。實際的數據應用場景各異、對實時性、數據量、獲取方式的要求也不同,如何以最簡單的方式建立通道,讓需要的人拿到數據?這是做大數據治理的遇到的第三個坎。

通過自服務大數據治理平臺能夠實現數據的自助查找、開發、共享和交換,建立數據共享通道,實現數據的開放應用。

圖片描述

二、大數據治理技術需要不斷革新

數據治理的目標是把數據管起來、用起來、保證數據質量,這些目標離不開各種技術的支持,這些技術包括元數據自動採集和關聯、數據質量的探查和提升、數據的自助服務和智能應用等。

1、管起來:數據資產的自動化採集、存儲技術

要實現大數據治理的資產管理,需要做足三個方面的工作:

採集:指從各種工具中,把各種類型的元數據採集進來。
存儲:採集元數據之後需要相應的存儲策略來對元數據進行存儲,這需要在不改變存儲架構的情況下擴展元數據存儲的類型;
管理和應用:在採集和存儲完成後,對已經存儲的元數據進行管理和應用。

第一,針對數據資產的存儲,模型體系規範爲元數據管理提供了基礎,通過模型管理可以實現統一穩定的元數據存儲,統一的標準和規範能很好地解決通用性和擴展性。
傳統數據資產管理採用CWM規範進行數據資產存儲設計,該規範提供了一個描述相關數據信息元數據的基礎框架,併爲各種元數據之間的通信和共享提供了一套切實可行的標準。

但是,隨着元數據管理範圍的不斷擴大,CWM規範已經不能滿足通用的元數據管理需求,針對微服務、業務等也需要一套規範支撐。MOF規範位於模型體系最底層,可以爲元數據存儲提供統一的管理理論基礎。

圖片描述

第二,元數據管理第二個核心問題是解決各類元數據的採集,由於元數據類型多種多樣,而且在不斷增加,所以,如何以最小代價,快速納入管理新類型元數據的能力,是元數據管理的核心。

採用可插拔的適配器方式實現元數據的採集是一個很好的選擇。其中,數據採集適配器應支持各類數據源的採集,當有一個新的數據源需要接入的時候,只需按照規範快速開發一套針對性的適配器,就能實現新類型元數據的納入管理。

圖片描述

第三,與人工相比,技術的最突出特點是速度快和精確。因此,如何通過技術手段精確地獲取數據資產是關鍵,特別是元數據關係,一般都存在於模型設計工具、ETL工具,甚至開發的SQL腳本中,因此需要通過工具組件解析(接口、數據庫)、SQL語法解析等手段完成關係的獲取和建立。準確解析後的關係,還需要通過直觀的關係圖展現出來。

圖片描述

2、有保障:數據質量探查和提升技術

通過大數據治理來提升數據質量的過程中,涉及到很多環節、工作和技術,其中包括:通過合理的技術找出數據問題並找到問題數據;從各個維度監控數據問題,並能通過最直觀和快捷的方式反饋給相關責任人;實現問題發現、認責、處理、歸檔等數據問題的閉環解決流程等。中間主要涉及到以下兩個方面:

第一,要想及時全面地找到問題數據,不僅要關注關鍵點,還要有合適的方法。數據最容易出現質量問題的地方就是數據集成(流動)點,例如:性別在單系統中,有1和0或者男和女表示都行,但是系統間集成時就會有問題。因此,解決數據質量的關鍵,就在於在集成點檢查數據質量。另外,針對大數據量的數據質量檢查,即要保證實時性,也要保證不影響業務系統的正常運行,因此在對特別大的數據量進行檢查時,要採用抽樣檢查的方式。

圖片描述

第二,數據問題發現後,還要直觀地將數據問題展現出來並及時通知相關人員。因此大數據治理平臺應提供實時、全面的數據監控,實現多維度實時的數據資產信息展示:

從作業、模型、物理資源等各方面進行全面的數據資產盤點;
對數據及時性、問題數據量等方面的數據健康環境進行全面的預警。

圖片描述

3、用起來:自助化數據服務構建技術

大數據治理的最終目標是爲最終用戶提供數據,這需要快速找到數據,並快速建立數據交換的通道。

知識圖譜是一種非常好用、直觀的數據應用方式。人工智能的知識圖譜構建,可以從以下步驟考慮:

基於企業元數據信息,通過自然語言處理、機器學習、模式識別等算法,以及業務規則過濾等方式,實現知識的提取;
以本體形式表示和存儲知識,自動構建成起資產知識圖譜;
通過知識圖譜關係,利用智能搜索、關聯查詢等手段,爲最終用戶提供更加精確的數據;

圖片描述

基於元數據的自助數據服務開發,可以簡單快速地建立數據通道。通過自助化的數據生產線,數據使用方(業務人員)大大減少了對開發人員依賴,80%以上的數據需求,都能通過自己進行整合開發,最終獲取數據。讓所有用數據的人能方便得到想要的數據。其中,提供所需數據的自助查詢能力、自動生成數據服務、及時穩定的獲得數據通道、保證數據安全是實現自助化的大數據生產線的四個關鍵點。

圖片描述

三、如何選擇合適的大數據治理工具?

工慾善其事必先利其器,大數據治理的落地開展離不開工具的支撐。大數據治理工具一般分爲兩類:一類是單個工具,另一類是集成平臺,用於不同的階段、場景和客戶。其中,單獨工具有:元數據、數據質量、主數據等,集成平臺包括數據資產管理、數據治理平臺、自助服務平臺等。

圖片描述

下面重點介紹其中兩個核心的工具:一個是元數據,另一個是自助數據服務平臺;

1、大數據治理的核心——元數據管理工具

元數據是大數據治理的核心,元數據管理工具應該支持企業級數據資產管理,並且從技術上支持各類數據採集與數據的直觀展現,從應用上也要支持不同類型用戶的實際應用場景,一個合格的元數據管理工具,需要具備以下幾項基本能力:

首先,元數據要有全面的數據管理能力。無論是傳統數據還是大數據,無論是工具還是模板等,都應該是元數據的管理範疇。對於企業來說,要想統一管理所有信息資產,還依靠原來人工錄入資產的方式肯定是不行的,企業需要從技術上提供各種自動化能力,實現對資產信息的自動獲取,包括自動數據信息採集、自動服務信息採集與自動業務信息採集等,這要求企業使用的數據管理工具支持一系列的採集器,並且多采用直連的方式來採集相關信息。

圖片描述

其次,儘管元數據是一個基礎的管理工具,也需要具備好的顏值和便捷的使用方式,以便給用戶帶來好的應用感受。作爲一款元數據管理工具,能讓用戶能在一個界面全面瞭解到元數據信息,通過圖像從更多維度、更直觀地瞭解企業數據全貌和數據關係是很重要的。除此之外,通過H5等流行的展現技術實現各瀏覽器的兼容,支持界面的移植也是元數據管理工具必不可少的能力。

圖片描述

再次,元數據管理工具不僅僅是一個工具,還需要關注各類人的使用訴求,跟具體用戶的使用場景相結合。對於業務人員來說,通過元數據管理的業務需求管理,能更容易地和技術人員溝通,便於需求的技術落地;對於開發人員來說,通過元數據管理能管控系統的開發上線、提升開發規範性,自動生成上線腳本,降低開發工作難度和出錯機率;對於運維人員來說,通過元數據管理能讓日常巡檢、版本維護等工作變得簡單可控,輔助日常問題分析查找,簡化運維工作。

圖片描述

2、大數據治理的最佳實踐——自助化數據服務平臺

大數據治理最終目標不僅僅是爲了管理數據,而是爲用戶提供一套數據服務的生產線,讓用戶能通過這條生產線自助地找到數據、獲得數據,並規範化地使用數據,因此自助化數據服務共享平臺是大數據治理必不可少的工具。

圖片描述

作爲大數據治理的落地工具,自助化數據服務共享平臺不僅要爲開發者提供一套完整的數據生產線,也需要給運維者提供易用的監控界面,畢竟系統的運維纔是工具應用的常態。全局的數據資產監控能力和數據問題跟蹤能力同樣重要,通過全局的數據資產監控能力,能使客戶方便地瞭解到企業數據共享交換的全貌、系統間的數據關係和數據提供方和消費方的使用情況;通過數據問題跟蹤能力,能實現數據問題的智能定位,減少運維工作難度。

圖片描述

普元在大數據治理領域持續進行投入,元數據產品在大量實施客戶的錘鍊下不斷完善和提升,每個版本都有新能力體現,其中:

元數據5完整地支持了數據倉庫元數據管理,提供元數據維護、版本、分析等元數據基本能力;元數據6進行了全新內核提升,性能大幅提升,包括檢索性能、分析性能;以及覆蓋模型工具、ETL工具、數據庫、報表工具等最新版本等的全面數據資產管理;元數據7從大數據能力支持、應用場景落地、展現全面升級三方面做了全新改版,以適應新階段數據治理需求。

圖片描述

從單產品、多產品到最終的融合產品,普元數據治理產品滿足大數據治理各階段需求,支持數據管理、數據治理和數據應用。

在單產品階段,我們重點關注在基礎能力上面,把元數據自動化採集能力覆蓋到業界各種常用工具,並在核心的數據關係解析方面做了深入的研究和落地,保證數據管理。

在多產品數據治理階段,我們以提升數據質量爲目標,完善和實現了數據標準管理和數據質量管理,實現了數據管理到數據治理能力的提升;

在數據融合的自助數據服務階段,除了基於元數據實現數據的快速查找定位,通過數據治理保證數據的高質量外,還提供了數據服務的開發和共享能力,基於這些能力讓用戶能自助、有保證地獲取數據。

圖片描述

四、總結

大數據治理對企業數據建設的重要性不言而喻,然而實現的困難有時也會讓人望而卻步,選擇合適的技術和工具會達到事半功倍的效果。希望通過本文介紹能夠幫助在建,或者準備規劃大數據治理的各位,在大數據治理的資產管理、數據質量保證、數據應用等方面的技術和工具選擇上有所幫助。

關於作者
吳豔偉
現任普元大數據產品線產品管理部總監,近十年IT工作經驗。帶領和參與了普元元數據、監控調度等數據產品的規劃與研發。曾參與國開銀行、中信銀行、興業銀行卡中心等企業數據治理項目並主導完成了銀聯元數據管理項目、長城資產元數據建設和數據標準諮詢項目。

圖片描述

關於EAWorld
微服務,DevOps,元數據,企業架構原創技術分享,EAii(Enterprise Architecture Innovation Institute)企業架構創新研究院旗下官方微信公衆號。

掃描下方二維碼,關注成功後,回覆“普元方法+”,將會獲得熱門課堂免費學習機會!
微信號:EAWorld,長按二維碼關注。

圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章