Hadoop學習日誌二之數據倉庫

                      首先,爲什麼會產生數據倉庫?
數據倉庫的目的是構建面向分析的集成化數據環境,爲企業提供決策支持(Decision Support)。其實數據倉庫本身並不“生產”任何數據,同時自身也不需要“消費”任何的
數據,數據來源於外部,並且開放給外部應用,這也是爲什麼叫“倉庫”,而不叫“工廠”的原因。因此數據倉庫的基本架構主要包含的是數據流入流出的過程,可以分爲三——
源數據、數據倉庫、數據應用。
由此可知,數據倉庫是對多種數據的存儲和簡單的處理。


數據倉庫的特點:

1.效率足夠高。數據倉庫的分析數據一般分爲日、周、月、季、年等,可以看出,日爲週期的數據要求的效率最高,要求24小時甚至12小時內,客戶能看到昨天的數據分析。由於有的企業每日的數據量很大,設計不好
的數據倉庫經常會出問題,延遲1-3日才能給出數據,顯然不行的。
2.數據質量。數據倉庫所提供的各種信息,肯定要準確的數據,但由於數據倉庫流程通常分爲多個步驟,包括數據清洗,裝載,查詢,展現等等,複雜的架構會更多層次,那麼由於數據源有髒數據或者代碼不嚴謹,都可以導致數據失真,客戶看到錯誤的信息就可能導致分析出錯誤的決策,造成損失,而不是效益。
3.擴展性。之所以有的大型數據倉庫系統架構設計複雜,是因爲考慮到了未來3-5年的擴展性,這樣的話,未來不用太快花錢去重建數據倉庫系統,就能很穩定運行。主要體現在數據建模的合理性,數據倉庫方案中多出一些中間層,使海量數據流有足夠的緩衝,不至於數據量大很多,就運行不起來了。
從上面的介紹中可以看出,數據倉庫技術可以將企業多年積累的數據喚醒,不僅爲企業管理好這些海量數據,而且挖掘數據潛在的價值,從而成爲通信企業運營維護系統的亮點之一。正因爲如此,
廣義的說,基於數據倉庫的決策支持系統由三個部件組成
:數據倉庫技術,聯機分析處理技術和數據挖掘技術,其中數據倉庫技術是系統的核心,在這個系列後面的文章裏,將圍繞數據倉庫技術,介紹現代數據倉庫的主要技術和數據處理的主要步驟,討論在通信運營維護系統中如何使用這些技術爲運營維護帶來幫助。
4.面向主題
操作型數據庫的數據組織面向事務處理任務,各個業務系統之間各自分離,而數據倉庫中的數據是按照一定的主題域進行組織的。主題是與傳統數據庫的面向應用相對應的,是一個抽象概念,是在較高層次上將企業信息系統中的數據綜合、歸類並進行分析利用的抽象。每一個主題對應一個宏觀的分析領域。數據倉庫排除對於決策無用的數據,提供特定主題的簡明視圖。
數據倉庫的價值:
時間價值:數據倉庫的構建將大大縮短獲取信息的時間,數據倉庫作爲數據的集合,所有的信息都可以從數據倉庫直接獲取,數據倉庫的最大優勢在於一旦底層從各類數據源到數據倉庫的ETL流程構建成型,那麼每天就會有來自各方面的信息通過自動任務調度的形式流入數據倉庫,從而使一切基於這些底層信息的數據獲取的效率達到迅速提升。從應用來看,使用數據倉庫可以大大提高數據的查詢效率,尤其對於海量數據的關聯查詢和複雜查詢,所以數據倉庫有利於實現複雜的統計需求,提高數據統計的效率。
集成價值:
數據倉庫是所有數據的集合,包括日誌信息、數據庫數據、文本數據、外部數據等都集成在數據倉庫中,對於應用來說,實現各種不同數據的關聯
並使多維分析更加方便,爲從多角度多層次地數據分析和決策制定提供的可能。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章