DataOps系列丨數據的“資產負債表”與“現狀”

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1


作者:DataPipeline CEO 陳誠

《跨越鴻溝》的作者Geoffrey Moore曾說“沒有數據,運營企業就像一個又聾又瞎的人在高速上開車一樣”。數據的價值從未像現在這樣被企業重視,IDC預估,到2020年,全世界會有44萬億G數據,每一個世界500強的CEO和獨角獸創業公司的創始人都在思考並實踐如何能用數據支持、改造、創新業務,以獲得新的增長。


儘管越來越多的人認同數據是極爲重要的資產,但由於數據全生命週期管理和使用的複雜度,導致過去的數據管理方法論雖然正確且全面,但往往在推進落地的過程中容易陷入高投入慢節奏的怪圈。
 投入產出比不清晰,多數項目半途夭折,已經成爲多數企業在數據管理方面不可言說的痛,但遺憾的是大多數企業仍然沒有找到成熟有效的理念與方法論來組織、推動和指引數據價值的落地。Thomas Redman博士在《哈佛商業評論》推薦的《數據驅動:從最重要的資產中獲利》中寫到“當數據冒煙的時候,業務就會起火”,形象地點出了數據時效性低、質量差等問題對業務發展的重大影響。
 基於上述背景,在這篇文章中我們將討論DataOps,一種通過文化、流程和工具來幫助大型公司在內部推動數據價值落地,完成數字化業務轉型的理念。

一、數據的“資產負債表”


當下,數據量的增長態勢已經遠遠超了預期,容易讓我們產生一種錯覺,彷彿這樣就擁有了數據資產。

 但我們認爲這是對事實的一種簡化。單就存儲龐大的數據而言,企業就要爲此付出大量成本。例如,如果有100PB的數據,存儲在亞馬遜雲服務AWS S3上一年就需要花費2500萬美元。如果要讓數據發揮價值,那麼數據的採集流轉、處理計算、質量監測以及提供數據服務的資源成本和人力成本更是會快速上升。
 在這種情況下,如果我們製作一個企業的“數據資產負債表”,到底會有多少數據是企業真正的資產?如何才能增加企業的數據資產呢?

問題看似簡單,但很少有企業能在深入思考後得出嚴謹的回答。導致目前在使用數據的過程中存在“多、亂、慢、差”等情況,嚴重降低和阻礙了數據發揮作用的價值與效率。所以,只有像經營公司一樣精細化地經營數據,數據才能從負債變成資產。

640?wx_fmt=gif&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1


二、當前的數據現狀


若想實現精細化運營,就不得不迎接種種難題。當前,擁有幾百上千個內外部數據源的組織越來越多,其中包括各種業務、流程、客戶數據,結構化、半結構化、非結構化數據。如果再考慮到未來5G和區塊鏈帶來的應用級影響,將又會是一種難以言說的痛。
 在這種複雜異構的背景下,企業一方面缺少高效整合數據的方法和工具,另一方面更缺失能從這些數據中尋找規律,發掘價值的人才和文化,因此讓理解、整合數據變得雪上加霜。而這恰恰是所有數據使用的起點,如果沒有成熟高效的應對之道,數據驅動業務將會淪爲空談。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1


除了數據源數量和類型的不斷增多,業務本身也在不斷地進化調整,從而導致其產生的數據結構或元數據也隨之發生改變,以上種種會引發一系列數據鏈路的連鎖反應。

遺憾的是,很多企業制定元數據架構時通常是靜態的,可以理解當下的數據架構和含義,但無法在業務的快速迭代發展中,始終保持與業務語義的一致,以致最後逐漸喪失指導數據分析師理解業務的能力,造成數據分析時統計口徑不一致等情況,給企業進行重大決策時造成混亂。
 

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1


當業務部門希望使用數據來輔助決策或者創造新的商業模式時,通常有兩個時效性的要求:一是滿足數據需求的速度,二是對於所需數據的延遲性。因爲業務創新的關鍵點在於能否快速滿足市場需求,不僅需要用數據快速測算市場規模,更需要在時間窗口打開的時機內提供相應的產品和服務從而佔領市場。而這一過程越來越受數據供給速度及時效性的影響,例如銀行業的實時風控系統,零售業的實時營銷系統,工業界的數字孿生系統,都是業務創新對數據實時性要求非常高的典型。而大多數企業的數據部門在這兩點的滿足上是捉襟見肘的。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1



數據被使用只是萬里長征的第一步,接下來數據質量差的問題會接踵而至。目前,企業經營者和高管要麼不知道數據質量存在問題,要麼就是以鴕鳥心態迴避和掩蓋問題。Gartner的數據質量市場調查顯示,糟糕的數據質量平均每年會帶來 1500 萬美元的損失。儘管所有企業都認同數據質量的重要性,但Gartner認爲仍有84%的企業的數據質量處於“不成熟”階段。損失金錢只是硬幣的一面,又有多少公司因爲數據質量差,缺乏信任,而錯失了創造大量收入的機會呢? 
最後,數據安全與隱私也是亟待關注的問題。每年都有許多公司因爲數據泄露而蒙受聲譽和財務上的雙重損失,歐盟已經制定了GDPR的標準和規則,並且對包括Google在內的許多科技巨頭開出了數以億計的罰單,同時我國也在相關法律法規的制定流程中。數據的安全與隱私問題是一個非常關鍵的點,在安全合規的範圍內充分發揮數據價值是DataOps的關鍵點之一,而這並不僅是技術問題。而是在安全合規的前提下,最大限度賦予組織內部使用數據權限靈活度的問題。(後續會在官微文章中集中闡述,請持續關注)

三、現狀之下的反思


大多數時候,數據出現問題並不僅僅是數據部門的原因,更多是組織架構及配合的問題。相較於追責某些工具,反而應該思考文化在其中扮演的角色。因此,是時候深入思考這些問題背後的“元問題”了。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1


我們應該用何種理念和方法來面對這個“元問題”?不妨先從DataOps着手。

接下來DataPipeline將集中討論「DataOps與企業如何增強數據管理」的問題,本文首先交代了數據管理目前的現狀以及DataOps出現的背景。

後面將陸續從「DataOps理念及設計原則」、「DataOps的組織架構與挑戰」、「DataOps的技術考量」等角度進行全方位地解讀。

對上述問題感興趣的夥伴,請持續關注DataPipeline如果您有好的想法和意見,歡迎與我們探討。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章