基於spark的流式數據處理—批處理和流處理區別

靜態數據

很多企業爲了支持決策分析而構建的數據倉庫系統,其中存放的大量歷史數據就是靜態數據。技術人員可以利用數據挖掘和OLAP(On-Line Analytical Processing)分析工具從靜態數據中找到對企業有價值的信息。
在這裏插入圖片描述

流數據

近年來,在Web應用、網絡監控、傳感監測等領域,興起了一種新的數據密集型應用——流數據,即數據以大量、快速、時變的流形式持續到達。實例:PM2.5檢測、電子商務網站用戶點擊流。

流數據具有如下特徵:
  • 數據快速持續到達,潛在大小也許是無窮無盡的;
  • 數據來源衆多,格式複雜;
  • 數據量大,但是不十分關注存儲,一旦經過處理,要麼被丟棄,要麼被歸檔存儲;
  • 注重數據的整體價值,不過分關注個別數據;
  • 數據順序顛倒,或者不完整,系統無法控制將要處理的新到達的數據元素的順序;

批處理與流處理

對靜態數據和流數據的處理,對應着兩種截然不同的計算模式:批量計算和實時計算。
在這裏插入圖片描述
1、批量計算:充裕時間處理靜態數據,如Hadoop;
2、流數據不適合採用批量計算,因爲流數據不適合用傳統的關係模型建模;
3、流數據必須採用實時計算,響應時間爲秒級;
4、數據量少時,不是問題,但是,在大數據時代,數據格式複雜、來源衆多、數據量巨大,對實時計算提出了很大的挑戰。因此,針對流數據的實時計算——流計算,應運而生。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章