30人團隊的數據架構師:談談數據湖這個風口吧,你們說的都沒價值

不知道你們有沒有感覺到,傳統的數據倉庫模式,在快速發展的企業面前已然顯得力不從心。

數據湖,是可以容納大量的原始數據的存儲庫和處理系統,已經成爲企業應用大數據的重要工具。數據湖可以更好地加速從數據到價值的過程,打造相應業務能力。

而有效的數據治理纔是數據資產形成的必要條件,同時數據治理是一個持續性過程,也是數據湖逐步實現數據價值的過程。未來在多方技術趨於融合,落地場景將不斷創新,數據湖、數據治理或將成爲新的技術熱點。

今天就以一個30多人團隊數據架構師和CIO的視角,來談談數據湖這個風口。

一、數據處理技術的發展趨勢與挑戰

在數字經濟時代,應用程序在不斷地產生並儲存大量數據,而這些數據卻無法及時被其他程序使用,導致“數據孤島”產生。數據湖的誕生,不僅解決了“數據孤島”的問題,還使企業獲得更強的數據使用能力。

1.1

數據管理面臨的挑戰和轉變

  • 數據倉庫模式導致的煙囪式建設與數據需跨業務線廣泛連接之間的挑戰
  • 傳統數據庫不能應對數據的增長,數據ETL、數據建模工作的響應速度與數據反哺業務迭代創新之間的挑戰
  • 數據賦能與業務場景探索脫節的挑戰

1.2

數據湖的定義及發展需求

數據湖是一種數據存儲理念——即在系統或存儲庫中以自然格式存儲數據的方法。

目前,Hadoop是最常用的部署數據湖的技術,所以很多人會覺得數據湖就是Hadoop集羣。數據湖是一個概念,而Hadoop是用於實現這個概念的技術。數據湖到底是什麼?業內並沒有達成共識定義

30人團隊的數據架構師:談談數據湖這個風口吧,你們說的都沒價值

圖1.數據湖存儲數據類型

數據湖是一個存儲企業的各種各樣原始數據的大型倉庫,其中的數據可供存取、處理、分析及傳輸。數據湖從企業的多個數據源獲取原始數據,並且針對不同的目的,同一份原始數據還可能有多種滿足特定內部模型格式的數據副本。

30人團隊的數據架構師:談談數據湖這個風口吧,你們說的都沒價值

圖2.未經處理和包裝的原生狀態“水庫”

1.3

從數據庫、數據倉庫到數據湖演變趨勢

從1960年開始,數據管理經歷了數據收集、數據庫、數據倉庫的階段,2001年後隨着互聯網的迅速發展,大數據時代來臨,對數據管理技術提出了全新的要求,未來朝着數據湖的方向演進。

30人團隊的數據架構師:談談數據湖這個風口吧,你們說的都沒價值

圖3.數據庫、數據倉庫到數據湖發展歷程

數據庫的數據有對齊的要求,數據庫是面向應用的,每個應用可能需要一個數據庫。如果一個公司有幾十個應用,就會有幾十個數據庫。幾十個數據庫之間怎麼去連接分析、統一分析?是沒有辦法的。

隨後就由數據庫發展成了一個數據倉庫,數據倉庫不面向任何應用。但是,它對接到數據庫,如果需要每天定時有些 ETL 的批處理的任務,將不同應用和數據彙總起來,按照一些範式模型去做連接分析,得到一定時間段的總體數據視圖。這個前提是很多數據庫要給數倉供應數據。

在這種需求的推動下,數據湖的理念便開始成形,其可以把數據保存在原始狀態,以便於企業從多個維度進行更多分析。數據可以很輕鬆進入數據湖,用戶也可以延遲數據的採集、數據清洗、規範化的處理,可以把這些延遲到業務需求來了之後再進行處理。

傳統的數倉,因爲模型範式的要求,業務不能隨便的變遷,變遷涉及到底層數據的各種變化。相對來說,數據湖就更加的靈活,能更快速的適應上層數據應用的變化。

二、數據湖的架構體系

2.1

數據湖架構體系

數據、算法和算力三大因素正在全力推動數據湖應用快速發展。企業建立統一的數據湖平臺,完成數據的採集、存儲、處理、治理,提供數據集成共享服務、高性能計算能力和大數據分析算法模型,支撐經營管理數據分析應用的全面開展。爲規模化數據應用賦能。

筆者認爲,數據湖技術架構涉及了數據接入(轉移)、數據存儲、數據計算、數據應用、數據治理、元數據、數據質量、數據資源目錄、數據安全及數據審計等10個方面領域:

30人團隊的數據架構師:談談數據湖這個風口吧,你們說的都沒價值

圖5.數據湖包含技術體系

就拿數據應用來說吧數據應用是指通過對數據湖的數據進行統一的管理、加工和應用,對內支持業務運營、流程優化、營銷推廣、風險管理、渠道整合等活動,對外支持數據開放共享、數據服務等活動,從而提升數據在組織運營管理過程中的支撐輔助作用,同時實現數據價值的變現。

在基本的計算能力之上,數據湖需提供批量報表、即席查詢、交互式分析、數據倉庫、機器學習等上層應用,還需要提供自助式數據探索能力。

30人團隊的數據架構師:談談數據湖這個風口吧,你們說的都沒價值

 

 

30人團隊的數據架構師:談談數據湖這個風口吧,你們說的都沒價值

 

三、如何通過數據治理實現數據湖商業價值

數據湖對一個企業的數字化轉型和可持續發展起着至關重要的作用。構建開放、靈活、可擴展的企業級統一數據管理和分析平臺, 將企業內、外部數據隨需關聯,打破了數據的系統界限。

1)利用數據湖智能分析、數據可視化等技術,實現了數據共享、日常報表自動生成、快速和智能分析,滿足企業各級數據分析應用需求。

2)深度挖掘數據價值,助力企業數字化轉型落地。實現了數據的目錄、模型、標準、認責、安全、可視化、共享等管理,實現數據集中存儲、處理、分類與管理,實現報表生成自動化、數據分析敏捷化、數據挖掘可視化,實現數據質量評估、落地管理流程。

3.1

數據湖遇到挑戰

數據湖本身是一箇中心化的存儲,能夠存儲任意規模的結構化與非結構化數據。數據湖的優勢就是數據可以先作爲資產存放起來,問題就在於如何把這些數據在業務中利用起來。當部署了數據湖之後,數據治理問題將會接踵而至,比如如何將數據進行分流、湖的數據如何進行整理等。

數據倉庫裏的數據是經過過整理、清晰易懂的。而數據湖的概念是不經處理直接進行堆砌,那麼數據湖就有可能會變成“數據沼澤”,篩選難度會變大。

由於定義不正確、信息不完整、數據陳舊或無法找到所需信息,它需要更多的元數據來理解存儲在數據湖中的數據資產,包括數據內容、數據資產圖譜、數據敏感性、用戶喜好、數據質量和數據價值等業務層面的理解。

另外這些系統和應用是技術人員開發的,由於技術人員和業務人員的思維和“語言”存在差異,這使得業務用戶獲取數據變得更加複雜和困難。

3.2

避免數據沼澤

如何讓數據湖的水保持清亮不會成爲數據沼澤?“數據湖的數據不被有效使用就會成爲大垃圾場。”中國有句諺語:“流水不腐,戶樞不蠹”。數據只有流動起來,纔可以不成爲數據沼澤,湖泊只是暫存數據河流的基地。

數據流動就意味着所有的數據產生,最終要有它的耕種者和使用者。要讓數據有效流動起來,就要建立有效的“數據河”(Data River)。

業界在數據湖的嘗試上一般都會忽視數據治理的重要性,這是很危險的,由它導致的數據沼澤也是企業對數據湖持續觀望的原因之一。

3.3

數據智能化治理是數據湖實現價值必由之路

對數據治理的需求實際更強了。因爲與“預建模”方式的數倉不同,湖中的數據更加分散、無序、不規則化等,需要通過治理工作達到數據“可用”狀態,否則數據湖很可能會“腐化”成數據沼澤,浪費大量的IT資源。

平臺化的數據湖架構能否驅動企業業務發展,數據治理至關重要,沒有數據湖治理,企業可能失去有意義的商業智能。這也是對數據湖建設的最大挑戰之一。

數據湖以數據治理爲基礎、建立一套自助服務爲抓手的工具鏈來賦能業務發展。數據湖能給企業帶來多種能力,例如,能實現數據的集中式管理,在此之上,企業能挖掘出很多之前所不具備的能力。

另外,數據湖結合先進的數據科學與機器學習技術,能幫助企業構建更多優化後的運營模型,也能爲企業提供其他能力,如預測分析、推薦模型等,這些模型能刺激企業能力的後續增長。

30人團隊的數據架構師:談談數據湖這個風口吧,你們說的都沒價值

圖8.數據湖中數據全生命週期管理

當數據從採集點流入數據湖時,它的元數據被捕獲,並根據其生命週期中的數據敏感度從數據可追溯性、數據全生命週期和數據安全等方面進行管理。

在數據大爆發的背景下,數據治理對數據湖起到關鍵作用,因爲數據治理涉及組織中跨功能和跨業務的所有決策機制。

數據智能在提供數據支持和數據治理應用方面至關重要,因爲它爲企業提供了在最佳時間內將正確的數據交付給正確的對象所需的知識。數據智能也在幫助專業人士在工作中變得更高效、更有效,在可靠數據的支持下做出更好的數據驅動決策。

3.4

構建數據湖的數據治理體系相關思考

筆者認爲,數據湖的數據治理體系包括元數據管控、數據資源目錄、主數據管控、數據服務、數據全生命週期管理、數據質量提升及隱私與安全管理等內容。而這只是數據湖管理難題的一部分。

結束語

在數字經濟時代裏,從數據倉庫到數據湖,不僅僅是數據存儲架構的變革,更是大數據思維方式的升級。用好數據是企業數字化轉型的關鍵、數據湖是數據分析智能商務的新趨勢。

數據湖能給企業帶來多種能力,數據湖結合先進的數據科學與機器學習技術,能幫助企業構建更多優化後的運營模型,也能爲企業提供其他能力。數據湖將以數據治理爲基礎、依託一套自助服務爲抓手的工具鏈來賦能業務發展。

歡迎關注我的公衆號“商業智能研究”,私信回覆“資料包”,即可領取大數據、數據中臺、商業智能、數據倉庫等6G精華資料!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章