數據倉庫 — 10_數倉建模理論（基本分層模型、關係建模和維度建模、事實表和維度表）

原創

文泽路小男孩

2020-05-21 20:09

文章目錄

1 數倉分層

2 數倉理論

2.2.2.1 維度建模的三種模型

2.3 維度表和事實表

歡迎訪問筆者個人技術博客：http://rukihuang.xyz/
學習視頻來源於尚硅谷，視頻鏈接：尚硅谷大數據項目數據倉庫,電商數倉V1.2新版，Respect！

1 數倉分層

1.1 基本分層模型

分層原因：
- 把複雜問題簡單化：將複雜的任務分解成多層來完成，每一層只處理簡單任務，方便定位問題。
- 減少重複開發：規範數據分層，通過中間層數據，能夠減少大量的重複計算，增加一次計算結果的複用性。
- 隔離原始數據：不論是數據的異常還是數據的敏感性，使真實數據與統計數據隔離開。

1.2 數據集市和數據倉庫

數據集市：部門級。一種微型的數據倉庫，通常具有更少的數據，更少的主題區域，以及更少的歷史數據。
數據倉庫：企業級。能爲整個企業各個部門運轉提供決策支持手段。

2 數倉理論

2.1 範式理論

詳見過往文章對範式理論的解釋：Java Web 02 — MySQL_02（數據庫的設計、數據庫的備份和還原、多表查詢、事務、DCL）

第一範式1NF：屬性不可切割
第二範式2NF：不能存在部分函數依賴
第三範式3NF：不能存在傳遞函數依賴

2.2 關係建模和維度建模

當今的數據處理大致可以分爲2類：聯機事務處理OLTP （ on-line transaction processing）、聯機分析處理OLAP（On-Line Analytical Processing）。OLTP 是傳統的關係型數據庫的主要應用，主要是基本的、日常的事務處理，例如銀行交易。OLAP 是數據倉庫系統的主要應用，支持複雜的分析操作，側重決策支持，並且提供直觀易懂的查詢結果。二者的主要區別對比如下表所示。

對比屬性	OLTP	OLAP
讀特性	每次查詢只返回少量數據	對大量數據進行彙總
寫特性	隨機、低延時寫入用戶的輸入	批量導入
使用場景	用戶，JavaEE項目	內部分析師，爲決策提供支持
數據表徵	最新數據狀態	隨時間變化的歷史狀態
數據規模	GB	TB、PB

2.2.1 關係建模

關係模型如圖所示，嚴格遵循第三範式（3NF），從圖中可以看出，較爲鬆散、零碎，物理表數量多，而數據冗餘程度低。由於數據分佈於衆多的表中，這些數據可以更爲靈活地被應用，功能性較強。關係模型主要應用與OLTP 系統中，爲了保證數據的一致性以及避免冗餘，所以大部分業務系統的表都是遵循第三範式的。

2.2.2 維度建模

維度模型如圖所示，主要應用於OLAP 系統中，通常以某一個事實表爲中心進行表的組織，主要面向業務，特徵是可能存在數據的冗餘，但是能方便的得到數據。
關係模型雖然冗餘少，但是在大規模數據，跨表分析統計查詢過程中，會造成多表關聯，這會大大降低執行效率。所以通常我們採用維度模型建模，把相關各種表整理成兩種：事實表和維度表兩種。

2.2.2.1 維度建模的三種模型

星型模型：事實表周圍只有一層維度表

雪花模型：維度表有多個層級

星座模型：多張事實表

2.3 維度表和事實表

2.3.1 維度表

維度表：一般是對事實的描述信息。每一張維表對應顯示世界中的一個對象或者概念。
維度表特徵：
- 維度的範圍很寬（具有多個屬性，多個列）
- 和事實表相比，行數相對少
- 內容相對固定：編碼表
如商品信息表，每一行表示一種商品的具體特徵和概念（小米手機，128G，白色，4999元）

2.3.2 事實表

每一個事實表的行包括：具有可加性的數值型的度量值、與維表相連接的外鍵、通常具有兩個和兩個以上的外鍵、外鍵之間表示維表之間多對多的關係。可統計的
特徵：
- 非常大
- 內容相對窄（列數少）
- 經常發生變化，每天會新增很多
如訂單表（小明，小米手機，4999元，優惠券200元，下單時間20200521 09：00）

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

企業IT架構治理之道| 京東雲技術團隊

一、什麼是架構和治理 1.1 架構的起源開篇還是要說說大家理解的架構，何爲架構，架構跟我們的工作和生活有什麼關係。英文Architecture本源來自於拉丁語，最早起源於建築領域，建築是文明社會一個重要的標誌，同時也是人類社會最早形

2024-05-07 23:17:13

京東科技數字化營銷能力的演進與最佳實踐| 京東雲技術團隊

1.導讀在當今數字化時代，全球互聯網用戶已超過50億人，中國的互聯網用戶數量更是達到10.5億，這爲企業提供了巨大的市場機遇和挑戰。根據市場研究公司的最新報告，全球數字營銷費用支出預計將在未來五年內進一步大幅增加，這表明數字化營銷已成爲

2024-05-07 23:17:11

01-電商商品中心解密：僅憑SKU真的足夠嗎？

在電子商務系統中，SKU（Stock Keeping Unit，庫存單位）和SPU（Standard Product Unit，標準產品單位）是兩種不同的概念，它們共同用於商品管理和庫存控制。雖然理論上可以只使用SKU來管理商品，但在實際應

2024-05-07 01:08:03

電子合同一站式解決方案 | 京東雲技術團隊

一：平臺定位和優勢（爲什麼建） 1.1、平臺定位由京東科技業務中臺主導發起，聯合法律部、安全部共建，旨在爲業務提供電子合同管理的中臺化能力，當前已形成一套成熟的“全線上、全生命週期電子合同管理系統”，可提供包括合同模板創建、模板預覽、

2024-05-06 23:16:37

巧用 TiCDC Syncpiont 構建銀行實時交易和準實時計算一體化架構

本文闡述了某商業銀行如何利用 TiCDC Syncpoint 功能，在 TiDB 平臺上構建一個既能處理實時交易又能進行準實時計算的一體化架構，用以優化其零售資格業務系統的實踐。通過遷移到 TiDB 並巧妙應用 Syncpoint，該銀行成

2024-04-30 22:24:58

Apache DolphinScheduler支持Flink嗎？

隨着大數據技術的快速發展，很多企業開始將Flink引入到生產環境中，以滿足日益複雜的數據處理需求。而作爲一款企業級的數據調度平臺，Apache DolphinScheduler也跟上了時代步伐，推出了對Flink任務類型的支持。 Flink

2024-04-30 11:49:27

華爲云云原生FinOps解決方案，釋放雲原生最大價值

華爲云云原生FinOps通過可視化的成本洞察和成本優化，幫助用戶精細用雲以提升單位成本的資源利用率，實現降本增效目標企業上雲現狀：上雲趨勢持續加深，但云上開支存在顯著浪費根據Flexer 2024年最新的一項調查顯示，當前有超過7

2024-04-29 22:33:46

三喜臨門！信必優連收三家金融行業客戶表揚信

近日，信必優陸續收到全球知名銀行客戶、中國證券行業TOP級客戶、中國期貨行業TOP級客戶的表揚信。客戶高度讚揚我司員工在工作中表現突出，以積極主動、團結協作的工作態度和出色的技術能力，在技術團隊中做出表率，爲項目的順利交付做出重要貢獻。

2024-04-29 22:32:22

數字化轉型新篇章：企業通往智能化的新範式

早在十多年前，一些具有前瞻視野的企業以實現“數字化”爲目標啓動轉型實踐。但時至今日，可以說尚無幾家企業能夠在真正意義上實現“數字化”。在實現“數字化”的征途上，人們發現，努力愈進，彷彿終點愈遠。究其原因，還在於轉型一直落後於技術邊界的拓展

2024-04-29 21:22:20

從NoSQL到NewSQL——10年代大數據浪潮下的技術革新

引言在數字化浪潮的推動下，數據庫技術已成爲支撐數字經濟的堅實基石。騰訊雲 TVP《技術指針》聯合《明說三人行》特別策劃的直播系列——【中國數據庫前世今生】，我們將通過五期直播，帶您穿越五個十年，深入探討每個時代的數據庫演變

2024-04-28 23:12:26

“百團大戰”下，20年代的國產數據庫如何乘風破浪？

引言在數字化浪潮的推動下，數據庫技術已成爲支撐數字經濟的堅實基石。騰訊雲 TVP《技術指針》聯合《明說三人行》特別策劃的直播系列——【中國數據庫前世今生】，我們將通過五期直播，帶您穿越五個十年，深入探討每個時代的數據庫

2024-04-28 23:12:24

大數據小白的測試成長之路

引言 22年校招入職京東後，我一直在數據中臺測試部從事測試開發的工作。畢業後，寫的最多的文檔是測試計劃和測試報告，鮮有機會就自己的成長碼字進行回顧和總結。借“up技術人”欄目，也終於是在工作之餘回頭望，對自己這近兩年時光進行一個小總結

2024-04-28 11:17:19

如何從0到1設計診斷系統

引言在整車電子電氣體系中，診斷系統的設計扮演着至關重要的角色，負責支持整車的刷寫、故障排查和EOL(End of Line)等關鍵操作。這一重要性在於這些操作的實現都依賴於診斷系統的全面支持。因此，在設計診斷系統時，必須確保

2024-04-26 22:43:26

華爲雲Stack8.3面向香港正式發佈，六大亮點激發雲上躍遷

本文分享自華爲雲社區《華爲雲Stack8.3面向香港正式發佈，六大亮點激發雲上躍遷》，作者：華爲雲頭條。 2024年4月23日，在華爲雲香港峯會2024上，華爲混合雲副總裁胡玉海面向香港市場發佈華爲雲Stack8.3，提供110+本地

2024-04-26 10:33:21

對接HiveMetaStore，擁抱開源大數據

本文分享自華爲雲社區《對接HiveMetaStore，擁抱開源大數據》，作者：睡覺是大事。 1. 前言適用版本：9.1.0及以上在大數據融合分析時代，面對海量的數據以及各種複雜的查詢，性能是我們使用一款數據處理引擎最重要的考量

2024-04-24 22:33:08

24小時熱門文章

最新文章

最新評論文章