數據倉庫、數據湖、數據中臺基礎概念與對比

現在各種新名詞層出不窮,頂層的有數字城市、智慧地球、智慧城市、城市大腦;企業層面的有數字化轉型、互聯網經濟,數字經濟、數字平臺; 平臺層面的有物聯網,雲計算,大數據,5G,人工智能,機器智能,深度學習,知識圖譜;技術層面的有數據倉庫、數據集市、大數據平臺、數據湖、數據中臺、業務中臺、技術中臺等等,總之是你方唱罷他登場,各種概念滿天飛…
在數據技術方面,隨着大數據技術的不斷更新和迭代,數據管理工具得到了飛速的發展,相關概念如雨後春筍一般應運而生,如從最初決策支持系統(DSS)到商業智能(BI)、數據倉庫、數據湖、數據中臺等。

基礎概念

一、數據倉庫

數據倉庫平臺逐步從BI報表爲主到分析爲主、到預測爲主、再到操作智能爲目標。

從過去報表發生了什麼--->分析爲什麼過去會發生---->將來會發生什麼---->什麼正在發生----->讓正確的事情發生
數據倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrated)、相對穩定的(Non-Volatile)、反映歷史變化的(Time Variant)數據集合,用於支持管理決策和信息的全局共享。

所謂主題:是指用戶使用數據倉庫進行決策時所關心的重點方面,如:收入、客戶、銷售渠道等;所謂面向主題,是指數據倉庫內的信息是按主題進行組織的,而不是像業務支撐系統那樣是按照業務功能進行組織的。
所謂集成:是指數據倉庫中的信息不是從各個業務系統中簡單抽取出來的,而是經過一系列加工、整理和彙總的過程,因此數據倉庫中的信息是關於整個企業的一致的全局信息。
所謂隨時間變化:是指數據倉庫內的信息並不只是反映企業當前的狀態,而是記錄了從過去某一時點到當前各個階段的信息。通過這些信息,可以對企業的發展歷程和未來趨勢做出定量分析和預測。
數據倉庫系統除了包含分析產品本身之外,還包含數據集成、數據存儲、數據計算、門戶展現、平臺管理等其它一系列的產品。

二、數據湖

數據湖(Data Lake)是Pentaho的CTO James Dixon提出來的,是一種數據存儲理念——即在系統或存儲庫中以自然格式存儲數據的方法。
數據湖(Data Lake)是一個存儲企業的各種各樣原始數據的大型倉庫,其中的數據可供存取、處理、分析及傳輸。數據湖是以其自然格式存儲的數據的系統或存儲庫,通常是對象blob或文件。數據湖通常是企業所有數據的單一存儲,包括源系統數據的原始副本,以及用於報告、可視化、分析和機器學習等任務的轉換數據。數據湖可以包括來自關係數據庫(行和列)的結構化數據,半結構化數據(CSV,日誌,XML,JSON),非結構化數據(電子郵件,文檔,PDF)和二進制數據(圖像,音頻,視頻)。
目前,Hadoop是最常用的部署數據湖的技術,所以很多人會覺得數據湖就是Hadoop集羣。數據湖是一個概念,而Hadoop是用於實現這個概念的技術。


三、數據中臺

1)傳統的數據倉庫不能滿足數據分析需求

企業在數據分析應用方面呈現“五大轉變”從統計分析向預測分析轉變、從單領域分析向跨領域轉變、從被動分析向主動分析轉變、從非實時向實時分析轉變、從結構化數據向多元化轉變),並且對統一的數據中臺平臺訴求強烈,對數據中臺的運算能力、核心算法、及數據全面性提出了更高的要求。

2)數據中臺的處理架構發生了變化

一是以Hadoop、Spark等分佈式技術和組件爲核心的“計算&存儲混搭”的數據處理架構,能夠支持批量和實時的數據加載以及靈活的業務需求。
二是數據的預處理流程正在從傳統的ETL結構向ELT轉變。傳統的數據倉庫集成處理架構是ETL結構,這是構建數據倉庫的重要一環,即用戶從數據源抽取出所需的數據,經過數據清洗,將數據加載到數據倉庫中去。而大數據背景下的架構體系是ELT結構,其根據上層的應用需求,隨時從數據中臺中抽取想要的原始數據進行建模分析。

數據中臺成爲熱點,“中臺”這個概念,是相對於前臺和後臺而生,是前臺和後臺的鏈接點,將業務共同的工具和技術予以沉澱。數據中臺是指數據採集交換、共享融合、組織處理、建模分析、管理治理和服務應用於一體的綜合性數據能力平臺,在大數據生態中處於承上啓下的功能,提供面向數據應用支撐的底座能力。

廣義上來給數據中臺一個企業級的定義:“聚合和治理跨域數據,將數據抽象封裝成服務,提供給前臺以業務價值的邏輯概念”。

中臺戰略核心是數據服務的共享。中臺戰略並不是搭建一個數據平臺,但是中臺的大部分服務都是圍繞數據而生,數據中臺是圍繞向上層應用提供數據服務構建的,中臺戰略讓數據在數據平臺和業務系統之間形成了一個良性的閉環,也就是實現應用與數據之間解藕,並實現緊密交互。

敏捷前臺:一線作戰單元,強調敏捷交互及穩定交付的組織能力建設。

業務中臺:能力固化與賦能,固化通用能力,賦能前線部隊,提升配置效率,加快前線響應,產品化業務化,開闢全新生態。

數據中臺:資產整合與共享,整合多維數據,統一資產管理,連通數據孤島,共享數據資源,深入挖掘數據,盤活資產價值。

穩定後臺:以共享中心建設爲核心,爲前中臺提供專業的內部服務支撐。


橫向比較

1、數據倉庫與數據湖差異

在儲存方面上,數據湖中數據爲非結構化的,所有數據都保持原始形式。存儲所有數據,並且僅在分析時再進行轉換。數據倉庫就是數據通常從事務系統中提取。

在將數據加載到數據倉庫之前,會對數據進行清理與轉換。在數據抓取中數據湖就是捕獲半結構化和非結構化數據。而數據倉庫則是捕獲結構化數據並將其按模式組織。

數據湖的目的就是數據湖非常適合深入分析的非結構化數據。數據科學家可能會用具有預測建模和統計分析等功能的高級分析工具。而數據倉庫就是數據倉庫非常適用於月度報告等操作用途,因爲它具有高度結構化。

在架構中數據湖通常,在存儲數據之後定義架構。使用較少的初始工作並提供更大的靈活性。在數據倉庫中存儲數據之前定義架構。

2、數據倉庫、數據集市與數據湖的對比

Pentaho首席技術官James Dixon創造了“數據湖”一詞。它把數據集市描述成一瓶水(清洗過的,包裝過的和結構化易於去使用的)。數據湖更像是在自然狀態下的水。數據流從源系統流向這個湖。用戶可以在數據湖裏校驗,取樣或完全的使用數據。
數據倉庫開發期間,大量的時間花費在分析數據源,理解商業處理和描述數據。結果就是爲報表設計高結構化的數據模型。這一過程大部分的工作就是來決定數據應不應該導入數據倉庫。通常情況下,如果數據不能滿足指定的問題,就不會導入到數據倉庫。這麼做是爲了簡化數據模型和節省數據存儲空間。
相反,數據湖保留所有的數據。不僅僅是當前正在使用的數據,甚至不被用到的數據也會導進來。數據會一直被保存所有我們可以回到任何時間點來做分析。

數據倉庫主要存儲來自運營系統的大量數據,而數據湖則存儲來自更多來源的數據,包括來自企業的運營系統和其他來源的各種原始數據資產集。
由於數據湖中的數據可能不準確,並且可能來自企業運營系統之外的來源,因此不是很適合普通的業務分析用戶;數據湖更適合數據科學家和其他數據分析專家。
對於數據倉庫與數據湖的不同之處,可以想象一下倉庫和湖泊的區別:倉庫存儲着來自特定來源的貨物,而湖泊的水來自河流、溪流和其他來源,並且是原始數據。

3、關係型數據庫vs.數據倉庫和數據湖

數據倉庫、數據湖與關係數據庫系統之間的主要區別在於,關係數據庫用於存儲和整理來自單個來源(例如事務系統)的結構化數據,而數據倉庫則用於存儲來自多個來源的結構化數據。數據湖的不同之處在於它可存儲非結構化、半結構化和結構化數據。
關係數據庫創建起來相對簡單,可用於存儲和整理實時數據,例如交易數據等。關係數據庫的缺點是它們不支持非結構化數據庫數據或現在不斷生成的大量數據。這使得我們只能在數據倉庫與數據湖間做出選擇。儘管如此,很多企業仍然繼續依賴關係數據庫來完成運營數據分析或趨勢分析等任務。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章