數據倉庫的架構與設計

公司之前的數據都是直接傳到Hdfs上進行操作,沒有一個數據倉庫,趁着最近空出幾臺服務器,搭了個簡陋的數據倉庫,這裏記錄一下數據倉庫的一些知識。涉及的主要內容有:

什麼是數據倉庫?
數據倉庫的架構
數據倉庫多維數據模型的設計

1. 什麼是數據倉庫

1.1 數據倉庫的概念

官方定義

數據倉庫是一個面向主題的、集成的、隨時間變化的、但信息本身相對穩定的數據集合,用於對管理決策過程的支持。

這個定義的確官方,但是卻指出了數據倉庫的四個特點。

特點

面向主題:數據倉庫都是基於某個明確主題,僅需要與該主題相關的數據,其他的無關細節數據將被排除掉
集成的:從不同的數據源採集數據到同一個數據源,此過程會有一些ETL操作
隨時間變化:關鍵數據隱式或顯式的基於時間變化
信息本身相對穩定:數據裝入以後一般只進行查詢操作,沒有傳統數據庫的增刪改操作

個人理解

數據倉庫就是整合多個數據源的歷史數據進行細粒度的、多維的分析,幫助高層管理者或者業務分析人員做出商業戰略決策或商業報表。

1.2 數據倉庫的用途

整合公司所有業務數據,建立統一的數據中心
產生業務報表,用於作出決策
爲網站運營提供運營上的數據支持
可以作爲各個業務的數據源,形成業務數據互相反饋的良性循環
分析用戶行爲數據,通過數據挖掘來降低投入成本,提高投入效果
開發數據產品,直接或間接地爲公司盈利

1.3 數據庫和數據倉庫的區別

俠客刀

原博客> https://blog.csdn.net/trigl/article/details/68944434

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章