spark streaming簡介

Spark Streaming用於流式數據處理(準實時,微批次),Spark Streaming支持的數據源很多,例如:kafka、Flume、簡單的TCP套接字等,數據輸入後可以用Spark的高度抽象原語,如:map、join、reduce、window等進行運算,而結果也可以保存在很多地方,如:hdfs、數據庫等。

和Spark基於RDD的概念很相似,Spark Streaming使用離散流(discretized stream)作爲抽象表示,叫做DStream。DStream是隨時間推移而收到的數據的序列,在內部,每個時間區間收到的數據都作爲RDD的存在,而DStream是由這些RDD所組成的序列(因此得名“離散化”)。簡單來講,Dstream就是對RDD在實時數據處理場景的一種封裝。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章