Spark-streaming-summary

Spark-streaming-summary

@(spark)[streaming]
Spark Streaming functionality. [[org.apache.spark.streaming.StreamingContext]] serves as the main entry point to Spark Streaming, while [org.apache.spark.streaming.dstream.DStream]] is the data type representing a continuous sequence of RDDs, representing a continuous stream of data.

下面的ppt還是蠻有意思的,作爲全面科普不錯。
overview

當然最重要的還是官方文檔

下面的敘述純屬個人觀點:
1. stream的本質是batch procession,也就是做不到一個tuple一個tuple的處理,但是可以做到一個batch一個batch的處理。有那麼點像’tail XXX.log | grep xxx | uniq -c‘ 那個意思。對應到spark來說每個batch可以認爲是個rdd,那麼一系列的rdd就是dstream了。
2. 在spark當中對每個dstream的數據流實際上是分成兩個部分,一部分是控制信息,走Akka;一部分是正常的數據處理,走blockManager
2. 解決了batch的問題,就要解決怎麼獲取數據的問題,在spark-streaming中,這個就是receiver,不同類型的數據源就是不同的receiver。典型的像HDFS,像socket像flume等等。
3. 作爲一個streaming的系統,就有一個可靠性的問題了。有了checkpoint和wal之類的東西。
4. 剩下的主要問題就是提供怎樣的api了:
- UpdateStateByKey Operation
- Transform Operation
- Window Operations
- Join Operations

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章