數據治理 - 數據倉庫 解釋

一、數據倉庫

數據倉庫是一個面向主題的、集成的、相對穩定的、反應歷史變化的數據集合,用於支持管理決策。

l 面向主題:傳統的數據庫是面向事務處理的,而數據倉庫是面向某一領域而組織的數據集合,主題是指用戶關心的某一聯繫緊密的集合。

l 集成:數據倉庫中數據來源於各個離散的業務系統數據庫、外部數據、非結構化數據的集合,數據倉庫數據是集成的。

l 相對穩定:數據倉庫中的數據不應該支持dml操作,而是通過批處理方式進行數據的處理。

l 反應歷史:數據倉庫保存了數據的歷史各個版本。

我們今天所介紹的就是數據倉庫保留數據歷史版本的一種方法-拉鍊表。

這裏我簡單介紹一下我們數據倉庫中掃採用的架構,主要包括貼源層、明細層、彙總層、集市層、報表層、維度層,簡單的介紹如下:

l 貼源層:採集的各個業務系統數據首先存儲在貼源層中,這裏需要注意的是採集業務源數據的方法,增量採集還是全量採集,好的業務系統設計應該支持增量採集(這裏留一個問題作爲思考:增量採集數據應該滿足哪些要求),這樣的好處減少了採集數據對倉庫資源和業務系統資源的消耗。

l 明細層:該層採用規範化方式存儲數據,處理數據主要來自於貼源層,實現的目的主要包括面向主題設計存儲結構、集成不同業務源數據、統一編碼規範、保留歷史數據(拉鍊表主要在這一層中進行設計實現)等倉庫基本要處理的

l 彙總層:對於明細層整合的數據,針對需要彙總的指標按照業務口徑進行計算並且初步反規範化設計實現連接明細層的規範化數據成小寬表,目的方便下一步處理使用。

l 集市層:面向不同需求方,按照維度建模方法,進行星型模型設計, 這一層設計完成後的目的要達到可以方便出具報表和日常提數任務。這裏有些倉庫設計人員還會用另一個思路,即集市層不採用星型模型設計方法,而是設計大寬表,採用這種方式的設計人員主要理由是這種方式方便人們使用。

l 報表層:根據各個部門不同需求出具報表。

l 維度層:統一存儲數倉維表相關數據。

目前數據倉庫設計主要有兩個陣營,kimball和inmon架構,這裏不會針對與這兩種放進進行詳細說明。個人所接觸項目經驗,如果極端採用某一種架構,最後數倉項目成功概率都很低,因此個人建議結合兩種架構的優點進行數倉設計(即三範式簡歷數倉明細層,集市層採用星型模型設計方法),合理結合兩種思路優點可以有效的避免業務驅動方式帶來的煩雜工作以及需求驅動所帶來的後期維護及擴展性問題。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章