靜態數據
很多企業爲了支持決策分析而構建的數據倉庫系統,其中存放的大量歷史數據就是靜態數據。技術人員可以利用數據挖掘和OLAP(On-Line Analytical Processing)分析工具從靜態數據中找到對企業有價值的信息。
流數據
近年來,在Web應用、網絡監控、傳感監測等領域,興起了一種新的數據密集型應用——流數據,即數據以大量、快速、時變的流形式持續到達。實例:PM2.5檢測、電子商務網站用戶點擊流。
流數據具有如下特徵:
- 數據快速持續到達,潛在大小也許是無窮無盡的;
- 數據來源衆多,格式複雜;
- 數據量大,但是不十分關注存儲,一旦經過處理,要麼被丟棄,要麼被歸檔存儲;
- 注重數據的整體價值,不過分關注個別數據;
- 數據順序顛倒,或者不完整,系統無法控制將要處理的新到達的數據元素的順序;
批處理與流處理
對靜態數據和流數據的處理,對應着兩種截然不同的計算模式:批量計算和實時計算。
1、批量計算:充裕時間處理靜態數據,如Hadoop;
2、流數據不適合採用批量計算,因爲流數據不適合用傳統的關係模型建模;
3、流數據必須採用實時計算,響應時間爲秒級;
4、數據量少時,不是問題,但是,在大數據時代,數據格式複雜、來源衆多、數據量巨大,對實時計算提出了很大的挑戰。因此,針對流數據的實時計算——流計算,應運而生。