Spark-streaming-summary

@(spark)[streaming]
Spark Streaming functionality. [[org.apache.spark.streaming.StreamingContext]] serves as the main entry point to Spark Streaming, while [org.apache.spark.streaming.dstream.DStream]] is the data type representing a continuous sequence of RDDs, representing a continuous stream of data.

下面的ppt還是蠻有意思的，作爲全面科普不錯。
overview

當然最重要的還是官方文檔

下面的敘述純屬個人觀點：
1. stream的本質是batch procession，也就是做不到一個tuple一個tuple的處理，但是可以做到一個batch一個batch的處理。有那麼點像’tail XXX.log | grep xxx | uniq -c‘ 那個意思。對應到spark來說每個batch可以認爲是個rdd，那麼一系列的rdd就是dstream了。
2. 在spark當中對每個dstream的數據流實際上是分成兩個部分，一部分是控制信息，走Akka；一部分是正常的數據處理，走blockManager
2. 解決了batch的問題，就要解決怎麼獲取數據的問題，在spark-streaming中，這個就是receiver，不同類型的數據源就是不同的receiver。典型的像HDFS，像socket像flume等等。
3. 作爲一個streaming的系統，就有一個可靠性的問題了。有了checkpoint和wal之類的東西。
4. 剩下的主要問題就是提供怎樣的api了：
- UpdateStateByKey Operation
- Transform Operation
- Window Operations
- Join Operations

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Spark-streaming-summary

Spark-streaming-summary

再談23種設計模式（3）：行爲型模式（學習筆記）

Power Automate Desktop 安裝完，登錄後老是提示one driver 錯誤

微前端學習筆記(4):從微前端到微模塊之EMP與hel-micro方案探索

微前端學習筆記（1）：微前端總體架構概述，從微服務發微

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

Spark-shuffle

spark-broadcast

Document數據庫 VS 關係數據庫

spark-sql-catalyst

Postgresql-xl 調研

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結