企業數據能力測評:認清現狀,佈局未來

“我的企業目前在數據應用上處於什麼水平?接下來應該向哪個方向努力?”本文試圖幫助企業決策者和IT負責人解答這一問題。

今天,數據之於企業的重要性,已經勿須多言,建設數據驅動型企業也已成爲衆多企業的戰略目標之一。在這一趨勢的引領下,很多企業開始了新一代數據平臺(例如數據中臺)的建設工作,然而在啓動這一具有挑戰性的工作之前,企業首先需要冷靜客觀地審視一下自己的數據生態,弄清楚目前所處的能力水平,以及下一步努力的“方向”。只有這樣才確保後續工作是沿着正確方向展開的,這可能也是企業在構建全新的大數據平臺或數據中臺前最先需要弄清楚的問題了。本文核心觀點援引自作者所著的《大數據平臺架構與原型實現:數據中臺建設實戰》一書。

1.如何度量企業的數據應用能力?

企業的數據應用能力決定了企業在“數據”這座金礦中所能攫取的價值大小,既然是一種能力,就會有強有弱,有高有低,收集並統一存儲數據只是建立良好數據生態的第一步,數據背後的真正“價值”是需要通過專業的手段進行挖掘才能獲取的。我們常說:“如果數據是燃料,那麼分析就是引擎”,對於一家企業而言既要儲備燃料,也要裝配引擎,只有同時具備了數據和數據分析能力才能從數據中提煉出有價值的信息。爲了清晰地度量企業在數據應用上的能力水平,我們對數據應用涉及的多個方面進行了歸納和總結,得到一個“企業數據應用成熟度模型”:

圖1 企業數據應用能力成熟度模型

在這個模型中,我們引入四個等級和兩個維度來度量企業的數據應用能力:

1.1.第一層級:數據流程自動化

數據流程自動化指的是數據從產生的源頭到使用的末端是自動化的,中間沒有手工操作,全部通過系統集成完成對接。可能有的讀者會認爲這一能力不應該成爲一個獨立的等級,因爲在高度信息化的企業中應該已經實現了各個系統間的數據對接,即使是以最原始的文件形式交換數據也大都已經實現了流程自動化,然而在很多企業中,實際的情況卻並非如大家想象中那樣理想。

現實中企業的數據來源豐富多樣,既有自身業務系統產生的數據,也有外部系統和供應商提供的數據,還有業務人員日常手工維護的大量表格和純文本數據,很多企業可能已經完成了對自有應用系統的自動化數據採集與處理,但是對於大量的外部數據和業務人員手工維護的數據往往是還沒有建立起有效的自動化處理流程的,這些數往往有這樣一些特點:

  • 格式不規範
  • 經常變動
  • 缺乏基本的校驗,容易出現錯誤數據
  • 數據供給週期不固定

這些原因導致了這類數據很難被自動化獲取和處理,而很多時候這些數據恰恰又是業務流程閉環中重要的組成部分,缺失這些數據會導致無法進行數據分析或極大影響結果的準確。造成這類數據大量存在的原因有兩點:

  • 企業的信息化程度依然不夠,在某些局部業務範圍內出現了系統空白,從而需要業務人員手工介入,以文件和表格的方式維護數據
  • 企業的數據資產意識不足,對數據規範化的重視程度不夠,缺乏一些管控和約束手段。

相應的,企業實現高度的數據流程自動化需要做好如下幾點:

  • 持續進行企業信息化改造和升級,將IT系統覆蓋到企業的全部業務流程中,這會很大程度上消除維護手工數據的情況,因爲當所有的業務流程都通過IT系統來驅動時數據就會沉澱到系統的後臺數據庫中,且這些數據都已經過了系統的校驗和規範化處理,質量都非常高,也可以很方便地從中提取出來放入數據平臺
  • 從企業管理層開始建立“數據資產”意識,成立專門的數據治理組織,有計劃地規範和治理企業的數據生態,對於重要的數據要制定統一規範的格式,避免任意地對數據格式進行改動

1.2.第二層級:報表與數據可視化

在收集到足夠多的企業數據後,就可以開展常規報表和數據可視化的開發工作了,這是目前多數傳統企業所處的階段,它們通過傳統的數據倉庫技術收集並整理了大部分的企業數據,通過報表工具向業務和管理人員提供一些常規的報表,這些報表通常面向生產、供應鏈、銷售、市場、財務等不同的業務環節,在時間粒度上最細可達daily級別。數據的展示的形式多以表格爲主,同時也會藉助報表工具展示圖形化報表。過去的報表大多在PC端展示,隨着移動應用的興起,開始出現越來越多面向企業開發的手機APP和微信小程序,在這些終端上爲業務用戶提供報表服務正越來越受歡迎。在這一層級上的企業對於數據處理和分析表現出如下一些特徵:

  • 基本上完成了與各個業務的系統的對接,數據能被自動化採集
  • 已經建立了數據倉庫體系,企業數據可以被有效地統一管理
  • 已經開發了業務上迫切需要的一些核心報表,業務對數據系統的依賴度高
  • 依託於成熟的後臺數倉,新的報表和數據展示需求都可以較快地完成開發並投入使用

第二層級是很多企業目前停留的階段,並且可能在這一層級上停留了很多年,因爲很多企業都在這一層級上遇到了“瓶頸”,很難再發展到下一層級,主要原因有以下三點:

  • 傳統的單體數倉系統缺乏水平伸縮的能力,已經無力應對企業數據爆炸式的增長,不得不放棄和展緩了集成某些新業務數據的計劃
  • 傳統數倉只能處理關係型數據,對於越來越多的圖片、視頻和其他非關係型數據無能爲力,而這些數據往往是由新業務形態產生的,對於這類數據處理能力的缺失會讓企業錯失新的市場機遇
  • 傳統數倉只能進行批處理,缺乏實時數據處理能力

如果企業想突破這些瓶頸,就需要將企業數據平臺升級爲以大數據和AI爲技術核心的新一代數據平臺,然後重建數據版圖。

1.3.第三層級:數據與業務融合

在第二層級時,對於數據的應用只侷限在“描述”業務上,而並沒有使數據參與到業務中,各種報表在業務用戶的工作中扮演的是一種輔助性角色,對於業務的影響是通過業務用戶和管理者在數據的支持之下做出的判斷和決策,從數據應用的角度看,這是一種被動和滯後的方式,並沒有充分的發揮出數據蘊含的潛能。在進入第三層級之後,這個狀況會逐漸被扭轉,數據開始與業務進行融合,數據以及數據處理能力會全面參與到業務流程的各個環節中去,從而產生更大的價值。

這是一個全新的階段,是數據驅動型企業在具備了大數據處理能力之後,藉助AI和機器學習而實現的一種更加智能的企業信息化水平,在這一層級上企業將具備如下能力:

  • 數據直接賦能業務,數據分析的結果將直接反饋回業務系統,作爲業務系統的某些關鍵操作的輸入
  • 已將多種維度的豐富數據進行融合,可以更加準確地刻畫數據背後的“事實”
  • 已具備實時的數據處理能力,可以讓業務用戶實時掌握數據
  • 大數據平臺已經成熟且穩定
  • 已經出現基於傳統的機器學習和數據挖掘的應用,在某些局部領域已經出現小範圍的深度學習案例

第三層級看上去有些抽象,我們可以通過一些案例來理解。例如,客戶會員體系是CRM系統中非常核心的一個功能,其中的會員積分計算是一個邏輯複雜且計算量又大的操作,消費者的每一筆交易和若干重要的行爲數據都會觸發積分的計算,傳統的CRM系統很難實現用戶積分的實時計算和更新,而是按天進行批量處理,這樣一來,用戶體驗就會變差。現在很多新的CRM系統都在積極地引入大數據的流式計算實時處理用戶交易和行爲數據,並更新用戶積分,這是數據與業務融合的一個非常好的案例,即藉助大數據的計算能力來實現業務上的數據處理需求。

另一個案例是用戶畫像系統,用戶畫像是基於用戶的基本信息,消費記錄,社交行爲等多種數據進行數據建模之後,利用算法生成的關於用戶的一套標籤體系,這些標籤全面刻畫了用戶的特徵和屬性,因此稱之爲“用戶畫像”。用戶畫像在CRM、精準營銷和以用戶爲中心的產品與服務創新上起着重要作用,是很多2C端企業非常重要的一類系統,同時它也是典型的大數據系統,但功能和定位又是業務性極強的系統。

從第二層躍升到第三層時,企業的數據基礎設施會面臨一次脫胎換骨的革新,傳統的關係數據庫,數據倉庫和BI等基礎設施已經不能支撐第三層級的諸多需求了,這時需要企業構建下一代的數據平臺。業界對於“下一代數據平臺”的認知經歷過一些更迭,早期方案是使用大數據技術替換傳統的數倉系統,後來出現了datalake——數據湖的理念,其方案還是以大數據作爲主要的技術支撐,但是在理念上比傳統數倉又有新的創新,而現在業界特別是國內最認可也是呼聲最高的方案則非“數據中臺”莫屬了。

1.4.第四層級:深度洞察與預測

現在人們的一個共識是:數據除了可以告訴我們現在,還可以“預知未來”,深度洞察與預測是數據金字塔最頂端的價值輸出,也是目前我們認爲的企業可以達到的最高層級的數據應用能力,即運用AI和深度學習算法對數據進行深度地洞察,揭示傳統分析方法無法發現的數據特徵,並基於現有數據對未來趨勢進行預測。

我們來看一下企業到達第四層級後會具備哪些能力。前面我們提到的智能門店選址的案例就是第四層級上的一個代表案例,對於零售行業來說,門店選址是非常重要的,會直接影響到零售商的銷售業績,傳統選址的做法是通過人工現場勘查,然後經過主觀判斷做出決定,這種方式選出的門店其實際效果難以量化,成功率無法確定,而如果能夠基於人口、消費、競爭對手、環境業態和交通路網等豐富的多維度數據再配置適當的人工智能算法進行綜合分析是可以得出更加精準的選址方案的,並且不單單是門店位置,還可以給出門店的預計銷售額、門店產品的上貨策略等更加細緻和完備的數據。

另一個示例是智能客服系統,這類系統可以針對顧客提出的問題進行語義識別,然後根據提出的問題在知識圖譜中進行搜索,尋找匹配的答案或決策,人工智能客服可以7*24小時在線,隨時解答顧客的問題,既提高了客戶滿意度又能節省商家的人力成本。

以上四個層級並不一定非要自下而上逐層構建,實際上很多企業的數據生態是在上層業務的驅動下自然形成的,並不會像模型中描述的這樣層次分明,但是能力模型能給到企業管理者一個清晰的認識:即自身企業目前整體上停留在哪個層級上以及接下來應該向哪個方向發展。

1.5.兩個縱深維度:決策支持與業務創新

最後,在成熟度模型圖的右側,還有兩個貫穿始終的維度:決策支持與業務創新,它們即是企業構建數據平臺進行數據分析的價值導向,也是企業數據應用能力持續輸出的效果,企業達到的層級越高,對於決策支持與業務創新起到的作用就越大越明顯。

在這兩個縱深維度上,企業更多需要做的是建立業務與技術團隊的互信,以產出業務價值,進行業務創新作爲共同的追求,同時要潛移默化地培育企業的“數據文化”,在企業內部形成“用數據說話”的氛圍。

所以這兩個縱深維度更多考察的是企業在數據方向上的管理、協作以及企業文化,是一個需要從管理者開始營造並推動,企業全員參與的良性互動過程。在這一過程中,業務團隊需要培養更好的數據素養,善於通過數據分析業務現狀,並輔助自己作出決策,而技術團隊不斷加強數據平臺的各項能力,確保更好的服務於業務分析,同時積極主動地學習業務,從IT視角爲業務創新提供新鮮素材。

2.如何度量企業的數據技術水平?

前面我們是從數據應用的“效果”上觀察企業的數據能力,當落地到實現層面時,“技術”就是不可或缺的了,構建數據平臺通常是從基礎設施建設開始的,然後配合業務上的需求,逐步完善和打通各個技術環節,在這裏,我們不討論傳統技術框架下的構建路線和方案,因爲正如我們在上一節中提到的,如果企業想晉升到第三或更高的層級,就需要以大數據技術作爲基石構建新的數據平臺,所以我們下文討論的所有技術內容都是以大數據作爲背景展開的:

圖2 企業數據技術成熟度模型

2.1.第一層級:IT 基礎設施

首先,IT基礎設施是當然的前置條件,構建基礎設施包括硬件機器的安裝,組網和調試,操作系統和必要軟件工具的安裝,然後,在硬件資源之上安裝和維護一個大數據集羣,這個集羣將負責承載企業全部數據的存數和處理任務。如果再寬泛一些,用於支撐平臺運行的基礎服務,例如DevOps,數據和算法服務使用的容器和容器編排服務等也都算在基礎設施內。

過去,企業的IT基礎設施大多是通過自有機房或租賃數據中心的硬件設施完成,隨着雲計算的普及,越來越多的企業開始把部分的基礎設施遷移到雲平臺上,形成混合的雲架構。基於雲平臺的基礎設施在運維的便捷性、系統的可伸縮性和成本控制上都有顯著的優勢,同時,在PaaS層面上,雲計算廠商也提供對標on-premise的數據平臺服務,如AWS的EMR等,這些因素促使促使越來越多的企業將新一代數據平臺建設在雲基礎設施之一。但是是在雲平臺上企業需要特別重視數據安全問題。

2.2.第二層級:數據採集/存儲/標準化

有了必要的基礎設施之後,就可以展開數據的採集、存儲和標準化工作了,這一工作也可以簡單地表述爲數倉的建設過程。這一階段需要將分佈在各個業務系統裏的數據收集起來,在進行一些必要的規範化處理之後,存儲在一個統一的大數據平臺上,這是一個長期的迭代過程,特別是在建設初期,上層對數據的廣泛需求和下層集成數據源的繁重工作之間會存在衝突,我們建議企業通過啓動一到兩個大型項目來驅動這一階段的建設工作,然後在中後期維持一個規模較小的團隊持續跟進其他數據源的接入工作,當企業在這一層級積累一段時間後,就可以交付相應的報表和數據可視化應用了。

2.3.第三層級:實時處理、AI/機器學習

再接下來,進入第三層級就要將技術平臺推升到更高水平了,這裏有兩項非常重要的技術拓展:實時處理和AI/機器學習,這是現代大數據平臺兩項標誌性的技術能力。實時處理是指通過流式計算、NoSQL數據庫等技術實現大體量數據的實時處理和讀寫,實時的數據處理能力對一些事實性要求很高的業務場景至關重要,這也是以往傳統數據平臺很難做到的。由於實時處理對技術和研發人員的要求都更高,因此大多數企業一般會先完善平臺的批量處理能力,然後再逐步拓展到實時處理領域。

另一個領域就是AI/機器學習方面的建設了,這一領域對技術能力的要求更高,且參與人員的角色和背景也與傳統的IT人員有所不同,進入到該階段時,IT團隊需要引入數據科學家,算法工程師等AI領域的人才。最後,實時處理和AI/機器學習這兩大領域的能力是可以同步培養的,彼此之間沒有太大的依存關係。當企業具備了第三層級的技術能力之後就可以有力的支撐應用能力模型中的最高層級“深度洞察與預測”了。

2.4.第四層級:數據產品

最後,從純技術的角度上還有一段可以上漲的空間,那就是以業務領域爲劃分依據,將現有各個層級上的技術能力進行提煉並培育成“數據產品”,從功能、性能、靈活性和可擴展性等多種維度上進一步提升數據平臺的技術成熟度。

2.5.兩個縱深維度:數據服務和數據治理

與四個層級建設並行的還有兩項貫穿始終的工作:數據服務和數據治理。數據服務是指將數據平臺上的各種數據以服務的方式提供給其他系統,這種“服務”可以通過Restful API,JDBC,ODBC,FTP等形式或協議體現出來,這是將數據應用能力輻射到企業的各個系統與業務領域上的關鍵一步,沒有靈活而有效的數據接口,數據平臺在企業範圍內起到的作用會受到限制。與此同時,數據治理也是一個長期的持續性的工作,數據治理就是對企業的數據資產進行清晰的梳理,明確管理職責,建立配套的標準規範,同時要確保所有策略和規範能落地執行,數據治理的最終目的就是保障數據質量。

應用能力成熟度模型和技術成熟模型之間是有關聯的,根據我們的經驗,當企業的技術成熟度達到第二層級時,可以支撐應用能力成熟度的第二層級和部分的第三層級,當技術成熟度達到第三層級時,就可以支撐應用能力成熟度的第三和第四層級了,至於第四技術層級是一個技術上更加完備的等級,通過將數據服務產品化爲終端用戶提供更加高級和便利的服務。

作者簡介

耿立超,架構師,14年IT系統開發和架構經驗,對大數據、企業級應用架構、SaaS、分佈式存儲和領域驅動設計有豐富的實踐經驗,熱衷函數式編程。目前負責企業數據中臺的架構設計和開發工作,對Hadoop/Spark 生態系統有深入和廣泛的瞭解,參與過Hadoop商業發行版的開發,曾帶領團隊開發過多個基於大數據技術的企業數據平臺,完成數據採集、數據倉庫、實時處理和數據服務在內的完整平臺建設。著有《大數據平臺架構與原型實現:數據中臺建設實戰》一書,個人技術博客:https://laurence.blog.csdn.net/《大數據平臺架構與原型實現:數據中臺建設實戰》一書已在京東和噹噹上線,掃描圖中二維碼瞭解詳情:

作者信息:耿立超, Amazon AWS, Sr. Solution Architect, Specialist

文章署名:耿立超

聯繫地址:上海市浦東新區源深路600弄1支弄15號603

銀行賬號:6225882135885066

開戶行:招商銀行上海分行營業部

身份證:370102198305153752

Email:[email protected]

電話:15821390511

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章