數據倉庫概述
1.數據倉庫需要解決的問題以及需要達成的目標
- 跨系統實現數據共享,解決信息孤島問題,提升數據質量
現在很多企業都有很多業務,每種類型的業務可能都有一個系統應用來支撐,但各個業務系統之間相互獨立,比如A系統只有A類型業務的數據,B系統只有B類型業務的數據,A,B系統由於權限等各種問題不能互相訪問彼此的數據,所以跨系統實現數據共享解決信息孤島問題很重要
- 構建企業單一視圖,實現各種結構化半結構化非結構化數據的統一管理服務以及全面的業務模型挖掘
- 構建完整統一的元數據管理體系
- 構建數據治理體系,保證數據的一致性,解決信息的冗餘,衝突和缺失等問題
- 提供高效的、實時、準確的多維數據分析,報表統計、即時查詢、多媒體分析、流分析,爲企業運營分析提供全面支持
- 提供簡潔易用的數據挖掘和預測分析支撐模型
2.數據倉庫發展歷程
- 傳統數倉(離線計算??)
使用ETL工具實現數據的抽取轉換清洗和裝載工作,使用ODS(操作型數據存儲)存儲明細數據,使用數據集市和數據倉庫技術實現面向主題的歷史數據存儲,使用多維分析進行前端展現,相比最開始的各個業務系統之間的各種報表查詢系統來說,傳統數倉有以下優點:
通過完善的ETL保證了操作型數據的準確性和一致性
通過多維分析展現工具給用戶提供了全面的多維分析,報表統計和即席查詢功能
缺點就是定期批量更新的數據導致時效性太差,並且傳統數倉只對高層開放,並且還不會主動推送
- 動態數倉(實時計算??)
數據倉庫增量加載數據,用戶可以實時訪問數據倉庫,採用時間驅動和主動推送的方式爲業務系統提供分析能力
- 數據中心
離線+實時計算的整合??
3.數據中心
關係型數據中心(以關係型數據庫爲基礎構建存儲層)
非關係型數據中心(以非結構化數據構建存儲層)
混合型數據中心(結構化+非結構化數據):
混合型數據中心中,元數據管理和數據治理超級超級重要,只有解決信息冗餘、衝突和缺失錯誤才能保證信息的一致性和完整性
4.數據倉庫相關的專業名詞解釋
數據倉庫相關的專業名詞解釋