公司之前的數據都是直接傳到Hdfs上進行操作,沒有一個數據倉庫,趁着最近空出幾臺服務器,搭了個簡陋的數據倉庫,這裏記錄一下數據倉庫的一些知識。涉及的主要內容有:
什麼是數據倉庫?
數據倉庫的架構
數據倉庫多維數據模型的設計
1. 什麼是數據倉庫
1.1 數據倉庫的概念
官方定義
數據倉庫是一個面向主題的、集成的、隨時間變化的、但信息本身相對穩定的數據集合,用於對管理決策過程的支持。
這個定義的確官方,但是卻指出了數據倉庫的四個特點。
特點
面向主題:數據倉庫都是基於某個明確主題,僅需要與該主題相關的數據,其他的無關細節數據將被排除掉
集成的:從不同的數據源採集數據到同一個數據源,此過程會有一些ETL操作
隨時間變化:關鍵數據隱式或顯式的基於時間變化
信息本身相對穩定:數據裝入以後一般只進行查詢操作,沒有傳統數據庫的增刪改操作
個人理解
數據倉庫就是整合多個數據源的歷史數據進行細粒度的、多維的分析,幫助高層管理者或者業務分析人員做出商業戰略決策或商業報表。
1.2 數據倉庫的用途
整合公司所有業務數據,建立統一的數據中心
產生業務報表,用於作出決策
爲網站運營提供運營上的數據支持
可以作爲各個業務的數據源,形成業務數據互相反饋的良性循環
分析用戶行爲數據,通過數據挖掘來降低投入成本,提高投入效果
開發數據產品,直接或間接地爲公司盈利