數據治理:那些年,我們一起踩過的坑

寫在前面:

這是一個系列文章,沉澱了我在數據治理領域的一些實踐和思考。共分爲5篇。分別是:

一、數據治理:那些年,我們一起踩過的坑

主要講講數據治理工作中常見的一些誤區。

二、要打仗,你手裏先得有張地圖:數據治理之元數據管理

這一篇講講元數據的概念和具體應用場景。

三、不忘初心方得始終:數據治理之數據質量管理

提升數據質量,始終是數據治理工作中最重要的目標之一。本篇講述如何科學地進行數據質量管理。

四、書同文車同軌:數據治理之數據標準管理

數據標準的落地始終是難題。本篇希望能提供一些數據標準建設的思路。

五、大數據的淘金之旅,數據治理之數據資產管理

不管廠商把它們叫什麼:業務標籤,數據資產,還是知識圖譜管理,本質上都是從數據中提煉出來的資產。怎麼管理和應用好這些資產,是現今數據治理的重要研究課題

 

這些觀點是一家之言,歡迎同仁們商榷,可以發郵件給我:[email protected],共同探討數據治理相關領域的問題。

謝謝。

 

正文:

大數據時代,數據成爲社會和組織的寶貴資產,像工業時代的石油和電力一樣驅動萬物,然而如果石油的雜質太多,電流的電壓不穩,數據的價值豈不是大打折扣,甚至根本不可用,不敢用,因此,數據治理是大數據時代我們用好海量數據的必然選擇。

但大家都知道,數據治理是一項長期而繁雜的工作,可以說是大數據領域中的髒活累活,很多時候數據治理廠商做了很多工作,但客戶卻認爲沒有看到什麼成果。大部分數據治理諮詢項目都能交上一份讓客戶足夠滿意的答卷,但是當把諮詢成果落地到實處的時候,因爲種種原因,很可能是另一番截然不同的風景。如何避免這種情況發生,是每一個做數據治理的企業都值得深思的問題。

可以說在業界,大家都爲如何做好數據治理而感到困惑。

筆者涉獵大數據治理領域有6年多的時間,負責過政府、軍工、航空、大中型製造企業的數據治理項目。在實踐當中有過成功的經驗,當然也經歷過很多失敗的教訓,在這些過程中,我一直在思考大數據治理究竟是在治理什麼?要達到什麼樣的合理目標?中間應該怎麼避免走一些彎路?今天就借這個機會跟各位分享一下我曾經趟過的坑,希望對大家有一些借鑑意義。

誤區一:客戶需求不明確

客戶既然請廠商來幫助自己做數據治理,必定是看到了自己的數據存在種種問題。但是做什麼,怎麼做,做多大的範圍,先做什麼後做什麼,達到什麼樣的目標,業務部門、技術部門、廠商之間如何配合做……很多客戶其實並沒有想清楚自已真正想解決的問題。數據治理,難在找到一個切入點。

以筆者的經驗來看,如果客戶暫時想不清楚需求,建議先請廠商幫助自己做一個小型的諮詢項目,通過專業的團隊,大家一起找到切入點。這個諮詢項目工作的重點應該是數據現狀的調研。通過調研數據架構、現有的數據標準和執行情況,數據質量的現狀和痛點,客戶目前已經具有的數據治理能力現狀等,來摸清楚數據的家底。

在摸清家底的基礎上,由專業的數據治理團隊幫助客戶設計切實可行的數據治理路線圖,雙方取得一致的基礎上,按照路線圖來執行數據治理工作。

其實客戶很多時候並不是沒需求,只是需求相對比較籠統,模糊不清晰,雙方可以花費一定的時間和精力找到真正目標,磨刀不誤砍柴工,這樣才不致於後續花更多的錢來交學費。

總結:數據治理工作,一定要先摸清楚數據的家底,規劃好路線圖,切忌一上來就搭平臺。

誤區二:數據治理是技術部門的事

在大數據時代,很多組織認識到了數據的價值,也成立了專門的團隊來負責管理數據,有的叫數據管理處,有的叫大數據中心,有的叫數據應用處,名稱不一而足。這些機構往往由技術人員組成,本身的定位也屬於技術部門,它們的共同點是:強技術,弱業務。當數據治理項目需要實施的時候,往往就是由這些技術部門來牽頭。技術部門大多是以數據中心或者大數據平臺爲出發點,受限於組織範圍,不希望擴大到業務系統,只希望把自已負責的範圍管好。

但數據問題產生的原因,往往是業務>技術。可以說大部分的數據質量問題,都是來自於業務,如:數據來源渠道多,責任不明確,導致同一份數據在不同的信息系統有不同的表述;業務需求不清晰,數據填報不規範或缺失,等等。很多表面上的技術問題,如ETL過程中某代號變更導致數據加工出錯,影響報表中的數據正確性等,在本質上其實還是業務管理的不規範。我在與很多客戶做數據治理交流的時候,發現大部分客戶認識不到數據質量問題發生的根本原因,只想從技術維度單方面來解決數據問題,這樣的思維方式導致客戶在規劃數據治理的時候,根本沒有考慮到建立一個涵蓋技術組、業務組的強有力的組織架構,能有效執行的制度流程,導致效果大打折扣。

總結:數據治理既是技術部門的事,更是業務部門的事,一定要建立多方共同參與的組織架構和制度流程,數據治理的工作才能真正落實到人,不至於浮在表面。

誤區三:大而全的數據治理

出於投資回報的考慮,客戶往往傾向於做一個覆蓋全業務和技術域的,大而全的數據治理項目。從數據的產生,到數據的加工,應用,銷燬,數據的整個生命週期他們希望都能管到。從業務系統,到數據中心,到數據應用,裏面的每個數據他們希望都能被納入到數據治理的範圍中來。

但殊不知廣義上的數據治理是一個很大的概念,包括很多內容,想在一個項目裏就做完通常是不可能的,而是需要分期分批地實施,所以廠商如果屈從於客戶的這種想法,很容易導致最後哪個也做不好,用不起來。所以,我們需要引導客戶,從最核心的系統,最重要的數據開始做數據治理。

怎麼引導客戶呢?這裏要引入一個衆所周知的概念:二八原則。實際上,二八原則在數據治理中同樣適用:80%的數據業務,其實是靠20%的數據在支撐;同樣的,80%的數據質量問題,其實是由那20%的系統和人產生的。在數據治理的過程中,如果能找出這20%的數據,和這20%的系統和人,毫無疑問,將會起到事半功倍的效果。

但如何說服客戶,從最重要的數據開始做起呢?這就是我們在誤區一中談到的:在沒有摸清楚數據的家底之前,切忌貿然動手開始做。通過調研,分析,找出那20%的數據和20%的系統和人,提供真實可靠的分析報告,纔有可能打動客戶,讓客戶接受先從核心系統,核心數據開始做起,再漸漸覆蓋到其他領域。

總結:做數據治理,不要貪大求全,而要從核心系統,重要的數據開始做起。

誤區四:工具是萬能的

很多客戶都認爲,數據治理就是花一些錢,買一些工具,認爲工具就是一個過濾器,過濾器做好了,數據從中間一過,就沒問題了。結果是:一方面功能越做越多,另一方面實際上線後,功能複雜,用戶不願意用。

其實上面的想法是一種簡單化的思維,數據治理本身包含很多的內容,組織架構、制度流程、成熟工具、現場實施和運維,這四項缺一不可,工具只是其中一部分內容。大家在做數據治理最容易忽視的就是組織架構和人員配置,但實際上所有的活動流程、制度規範都需要人來執行、落實和推動,沒有對人員的安排,後續工作很難得到保障。一方面治理推廣工作沒人做,流程能否堅持執行得不到保障。另一方面沒有相關的數據治理培訓,導致大家對數據治理的工作不重視,認爲與我無關,從而導致整個數據治理項目註定會失敗。建議大家在做數據治理的時候將組織架構放在第一位,有組織的存在,就會有人去思考這方面的工作,怎麼去推動,持續把事情做好,以人爲中心的數據治理工作,才更容易推廣落地。

有一位國外的數據治理專家說得好,Data Governance is governance of people; Data behaves what people behave。翻譯過來就是:數據治理是對人的行爲的治理。對於組織而言,無論是企業還是政府,數據治理實質上是一項覆蓋全員的、有關數據的“變革管理”,會涉及到組織架構,管理流程的變革。

當然,這是一種理想的狀態。話說回來,我們看看國內的情況,在金融業和一些大的企業,可能會建立專門的組織來負責數據治理工作,但是某些政府和中小型企業,他們出於成本的考慮,往往沒有這方面的預算。這種時候就需要折衷考慮,讓已有崗位上的人,兼職負責數據治理的某個流程或功能。這樣會加大現有崗位人員的工作負擔,但是不失爲一種折衷的方式,重點是要責任到人。

現場的實施和運維也非常重要,儘管數據治理有向自動化的方向發展的趨勢,但是到目前爲止,數據治理更多還是一種服務工作,而不僅僅是一套產品。因此,配置足夠強的實施顧問和實施人員,幫助客戶逐步打造自身的數據治理能力,是一項非常重要的工作。

總結:記住,做數據治理不是去逛逛shopping mall,選幾樣稱心應手的工具回來就萬事大吉了。開展好數據治理不能迷信工具,組織架構、制度流程、現場的實施和運維也非常重要,缺一不可。

誤區五:數據標準難落地

很多客戶一說到數據治理,馬上就說我們有很多數據標準,但是這些標準卻統統沒有落地,因此,我們要先做數據標準的落地。數據標準真正落地了,數據質量自然就好了。

但這種說法其實混淆了數據標準和數據標準化。首先要明白一個道理:數據標準是一定要做的,但是數據標準化,也就是數據標準的落地,則需要分情況實施。

要做數據標準,我們首先需要全面梳理數據標準。而數據標準的全面梳理,範圍很大,包括國家標準,行業標準,組織內部的標準等等,需要花費很大的精力,甚至都可以單獨立一個項目來做。所以,首先需要讓客戶看到梳理數據標準的廣度和難度。

其次,就算是花很大精力梳理,也很難看到效果,結果往往是客戶只看到了一堆WordExcel文檔,時間一長,誰也不會再去關心這些陳舊的文檔。這是最普遍的問題。

在金融業,或者像國家安全等一些特殊行業,數據標準的執行力度較好,而在政府和普通企業,數據標準基本上就是一種擺設。

造成這種問題的原因有兩個:

一是大家對數據標準工作的不重視。

二是國內的企業做數據標準,動機往往不是爲了做好數據治理,而是應付上級檢查,很多都是請諮詢公司,借鑑同行業企業的標準本地化修改而成,一旦諮詢公司撤離,企業本身是沒有數據標準落地的能力的。

但數據標準的落地,也就是數據標準化,其實一定要注意分情況進行,至少要分兩種情形:

一類是已經上線運行的系統,對於這部分信息系統,由於歷史原因,很難進行數據標準的落地。因爲改造已有系統,除了成本以外,往往還會帶來不可知的巨大風險。

第二類是對於新上線的系統,是完全可以要求其數據項嚴格按照數據標準落地的。

當然,數據標準是否能順利落地,還與負責數據治理的部門所獲得的權限直接相關,倘若沒有領導的授權和強力支持,你是無論如何無法推動“書同文車同軌”的,要做到這一點,請先確認你背後站着說一不二的秦始皇,或者你本身就是秦始皇。別抱怨,這就是每個做數據治理的團隊面臨的現狀。

總結:數據標準落地難是數據治理中的普遍性問題,實施過程中需要區要分遺留系統和新建系統,分別來執行不同的落地策略。

誤區六:數據質量問題找出來了,然後呢?

辛辛苦苦建立起來平臺,業務和技術人員通力合作,配置好了數據質量的檢核規則,也找出來了一大堆的數據質量問題,然後呢?半年之後,一年之後,同樣的數據質量問題依舊存在。

發生這種問題的根源在於沒有形成數據質量問責的閉環。要做到數據質量問題的問責,首先需要做到數據質量問題的定責。定責的基本原則是:誰生產,誰負責。數據是從誰那裏出來的,誰負責處理數據質量問題。

這種閉環不一定非要走線上流程,但是一定要做到每一個問題都有人負責,每一個問題都必須反饋處理方案,處理的效果最好是能夠形成績效評估,如通過排名的方式,來督促各責任人和責任部門處理數據質量問題。

這其實還是要追溯到我們在誤區二里談到的:要建立組織架構和制度流程,否則數據治理工作中的種種事情,沒有人負責,沒有人去做。

總結:數據質量問題的解決,要形成每一個環節都有確定責任人的閉環機制和反饋機制。

誤區七:你們好像什麼也沒做?

很多數據治理的項目難驗收,客戶往往有疑問:你們做數據治理究竟幹了些啥?看你們彙報說幹了一大堆事情,我們怎麼什麼都看不到?發生這種情況,原因往往有前面誤區一所說的客戶需求不明確,誤區三所說的做了大而全的數據治理而難以收尾等,但還有一個原因不容忽視,那就是沒有讓客戶感知到數據治理的成果。用戶缺乏對數據治理成果的感知,導致數據治理缺乏存在感,特別是用戶方的領導決策層,自然不會痛快地對項目進行驗收。

遇到這種情況,一句“寶寶心裏苦,但寶寶不說”是無濟於事的。一個項目從銷售、售前、到組織團隊實施,多少人付出了辛勤的汗水。重要的是讓客戶認識到項目的重要價值,最終爲所有人的付出買單啊。

https://img-blog.csdnimg.cn/20181217164607703

在我看來,在數據治理的項目需求階段,就應該堅持業務價值導向,把數據治理的目的定位在有效地對數據資產進行管理,確保其準確、可信、可感知、可理解、易獲取,爲大數據應用和領導決策提供數據支撐。並且在這個過程中,一定要重視並設計數據治理的可視化呈現效果,諸如:

管理了多少元數據,是否應該用數據資產地圖漂亮地展示出來。

管理了多少數據資產,哪些來源,哪些主題,來自於什麼數據源,是否應該用數據資產門戶的方式展示出來。

數據資產用什麼方式對上層應用提供服務,這些對外服務是如何管控的,誰使用了數據,用了多少數據,是否應該用圖形化的方式進行統計和展現。

建立了多少條清洗數據的規則,清洗了多少類數據,是否應該用圖表展示出來。

發現了多少條問題數據,處理了多少條問題數據,是否應該有一個不斷更新的統計數字來表示。

數據質量問題逐月減少的趨勢,是否應該用趨勢圖展現出來。

數據質量問題根據部門、系統的排名,是否應該加在數據質量報告中,提供給決策層,幫助客戶進行績效考覈。

數據分析、報表等應用,因爲數據問題而必須回溯來源和加工過程的次數,是否應該統計逐月下降的趨勢;之前的回溯方式,和現在通過血緣管理更清楚地定位問題數據產生的環節,這兩者之間進行對比,節省了客戶多少時間和精力,是否應該有一個公平的評估,並提交給客戶。

用戶之前找數據平均使用的時間,現在找數據平均需要的時間,是否能通過訪談的方式得到公平的結論,提交給客戶。

……

以上這些都是提升數據治理存在感的手段。除了這些之外,時常組織交流和培訓,引導客戶認識到數據治理的重要性,讓客戶真正認識到數據治理工作對他們業務的促進作用,逐步轉移數據治理的能力給客戶等,這些都是平時需要注意的工作。

總結:傳統的數據治理工作不重視效果的呈現,我們做數據治理工作,一定要從需求開始,就想辦法讓客戶直觀地看到成果。

總結:

在激烈的市場競爭下,大數據廠商提出來數據治理的各種理念,有的提出覆蓋數據全生命週期的數據治理,有的提出以用戶爲中心的自服務化數據治理,有的提出減少人工干預、節省成本的基於人工智能的自動化數據治理,在面對這些概念的時候,我們一方面要對數據現狀有清晰的認識,對數據治理的目標有明確的訴求,另一方面還要知道數據治理中各種常見的誤區,跨越這些陷阱,才能把數據治理工作真正落到實處,項目取得成效,做到數據更準確,數據更好取,數據更好用,真正地用數據提升業務水平。

 

作者信息:

蔣珍波,一名專業的大數據售前諮詢,擅長爲客戶提供科學合理的大數據解決方案,尤其擅長數據治理解決方案。曾先後供職於東南融通、軟通動力、普元信息等公司,負責過數據倉庫、大數據平臺、數據中臺、數據治理等售前諮詢等工作,有政府、企業、零售等多個行業經驗。目前在數瀾科技擔任售前諮詢工作。

本文經過公司小編精簡後,以更加有趣的形式發表在公司的公衆號上,更適合讀者閱讀理解,鏈接地址:

“數據治理那點事”系列之一:那些年我們一起踩過的坑

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章