第1章 Spark Streaming概述

1、 Spark Streaming是什麼

Spark Streaming用於流式數據的處理。Spark Streaming支持的數據輸入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和簡單的TCP套接字等等。數據輸入後可以用Spark的高度抽象原語如:map、reduce、join、window等進行運算。而結果也能保存在很多地方,如HDFS,數據庫等。
在這裏插入圖片描述
和Spark基於RDD的概念很相似,Spark Streaming使用離散化流(discretized stream)作爲抽象表示,叫作DStream。DStream 是隨時間推移而收到的數據的序列。在內部,每個時間區間收到的數據都作爲 RDD 存在,而DStream是由這些RDD所組成的序列(因此得名“離散化”)。


2、 Spark Streaming特點

易用
在這裏插入圖片描述
容錯
在這裏插入圖片描述
易整合到Spark體系
在這裏插入圖片描述


3、SparkStreaming架構

在這裏插入圖片描述

發佈了182 篇原創文章 · 獲贊 20 · 訪問量 9657
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章