支持多種數據源:Kafka、Flume、HDFS、普通TCP套接字等;
基本原理:實時輸入數據流以時間片(秒級)爲單位進行拆分,然後經Spark引擎以類似批處理的方式處理每個時間片數據;
Spark Streaming最主要的抽象是DStream(Discretized Stream,離散化數據流),表示連續不斷的數據流。在內部實現上,Spark Streaming的輸入數據按照時間片(如1秒)分成一段一段的DStream,每一段數據轉換爲Spark中的RDD,並且對DStream的操作都最終轉變爲對相應的RDD的操作;
Spark Streaming和Storm最大的區別:
Spark Streaming:Storm
毫秒級 ---------------秒級
低延時引擎(100ms+)---xxx
RDD天生高容錯-------xxxx
兼容批處理、實時處理------實時處理
方便歷史數據和實時數據聯合分析------實時分析