Spark Streaming總結-----學習筆記

支持多種數據源:Kafka、Flume、HDFS、普通TCP套接字等;

基本原理:實時輸入數據流以時間片(秒級)爲單位進行拆分,然後經Spark引擎以類似批處理的方式處理每個時間片數據;


Spark Streaming最主要的抽象是DStream(Discretized Stream,離散化數據流),表示連續不斷的數據流。在內部實現上,Spark Streaming的輸入數據按照時間片(如1秒)分成一段一段的DStream,每一段數據轉換爲Spark中的RDD,並且對DStream的操作都最終轉變爲對相應的RDD的操作;


Spark Streaming和Storm最大的區別:

Spark Streaming:Storm

毫秒級 ---------------秒級

低延時引擎(100ms+)---xxx

RDD天生高容錯-------xxxx

兼容批處理、實時處理------實時處理

方便歷史數據和實時數據聯合分析------實時分析


發佈了168 篇原創文章 · 獲贊 39 · 訪問量 7萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章