獨家 | 一文盤點數據集市和數據倉庫的差異(附鏈接)

作者:By Gilad David Maayan

翻譯:王雨桐

校對:丁楠雅

本文約1600字,建議閱讀10分鐘

本文從基本定義入手分析數據集市和數據倉庫的差異,並分析了各自的適用情況。

當一家企業開始應用商業智能(Business Intelligence,BI)的戰略和技術時,首先需要明確數據集市和數據倉庫的區別。理解這種差異將決定你採用何種BI架構和數據驅動決策。

商業智能的目標是運用技術將數據轉化爲可執行的想法,並幫助終端用戶在信息更完備的情況下做出商業決定,不論是理論戰略還是實際戰略。在闡述各自的實例和結構特點前,本文將先對各自的重要概念進行定義。

數據集市定義

數據集市是一個面向主題的數據存儲庫,其服務於特定的業務領域,如金融或銷售。以下是數據集市的一些重要的典型特徵。

  • 僅包含與特定業務或功能單元相關的源數據。
  • 數據集市的規模通常是幾十GB的數量級。
  • 通常只保存彙總數據,一些數據集市可能會包含完整的細節。
  • 數據集市的搭建要花費不少於一萬美元,以及3-6個月的時間。
  • 基於數據集市工具得到的決策是影響特定部門運營方式的戰術決策。

數據倉庫定義

數據倉庫是用於一個企業內的存儲庫,包含來自不同業務、系統和部門的集成數據。關於數據倉庫類型,請參照如下文章。

附鏈接: https://blog.panoply.io/i-choose-you-criteria-for-selecting-a-data-warehouse-platform

以下是數據倉庫的特徵:

  • 包含來自業務中的多個單元/主題區域的數據。
  • 數據倉庫的大小通常爲TB量級,至少也要超過100GB。
  • 存儲的詳細信息級別很高,包括原始數據、彙總數據和元數據。
  • 然而,搭建內部系統的成本通常要超過10萬美元,而隨着數據倉庫服務的普及,雲計算模式降低了成本。
  • 特定工具的業務用戶想通過數據倉庫信息來做出更明智的戰略業務決策,這會影響整個公司。

經典的Inmon 和 Kimball爭論

區分數據集市和數據倉庫是非常重要的,這源於數據倉庫先驅Bill Inmon和Ralph Kimball提出的兩種截然不同的數據建模方法之間的爭論。

Ralph Kimball認爲,最好的方法是從最重要的業務方面或部門入手,從這些方面可以產生面向特定業務線的數據集市。隨着時間的推移,企業可以根據需要合併其數據集市以形成數據倉庫。Kimball的方法被稱爲自下而上(bottom-up)。

Bill Inmon認爲僅僅將數據集市結合起來是不夠的。他提倡創建數據倉庫,作爲企業數據模型的物理表示,可以根據需要爲特定的業務單元創建數據集市。

每種方法都有各自的優點,許多因素會影響你的決定。應該從數據集市入手,還是從數據倉庫入手,要基於你從事的行業考慮。

例如,保險公司顯然需要從一開始就有一個高層次的概述,包括所有影響其業務模型和戰略選擇的因素,包括人口統計數據、股票市場趨勢、索賠歷史、統計概率等,因此採用Inmon方法並從數據倉庫開始是最有意義的。

對於中小型營銷企業來說,從數據集市入手更合適。如果該業務擴展,未來會包括多個子部門和業務線,可以在以後將每個業務線的數據集市合併到數據倉庫中,就像Kimball方法一樣。

結構化細節

大多數數據庫都是規範化的,這樣優化可以使事務處理的速度更快,比如添加或刪除數據。規範化的工作方式是重新組織數據,使其不包含冗餘數據,並將相關數據分離到表中,在指定關係的表之間使用連接。

數據倉庫/市場通常使用非規範化的數據結構,其中管理員通過向規範化數據添加冗餘數據來減少分析查詢的運行時間,從而提高查詢性能。

一個重要的概念是提取、轉換和加載(ETL)。ETL從多個數據源提取數據,基於特定的規則對數據進行轉換以滿足業務需求,最後將數據加載(寫入)到目標系統中。

如果從數據倉庫入手,通常使用ETL將數據直接從源系統獲取到數據倉庫,然後根據需要從數據倉庫獲取到數據集市。如果採用Kimball方法並從數據集市入手,只需將相關源系統中的數據寫入適當的數據集市,然後再執行ETL過程,以便從數據集市創建數據倉庫。

小結

由於時間限制和資源限制,除了最成熟的企業之外,所有企業都應該從數據集市開始,並隨着時間的推移逐步開發數據倉庫。然而,雲計算縮短了時間並降低了構建企業數據倉庫的成本,企業數據倉庫可以提供對組織數據的單一視圖的訪問。

原文標題: The Difference Between a Data Mart and a Data Warehouse 原文鏈接: http://www.dataversity.net/difference-data-mart-data-warehouse/

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章