Spark Streaming原理與架構

原創

2021-01-30 10:42

簡介:Spark Streaming 是基於spark的流式批處理引擎，其基本原理是把輸入數據以某一時間間隔批量的處理，當批處理間隔縮短到秒級時，便可以用於處理實時數據流。

計算流程:

將流試計算分解成一系列短小的批處理作業,批處理引擎是SparkCore
按照輸入數據的batch size（如1秒）,將數據分解成一段一段轉換成RDD
Spark Streaming中對DStream的Transformation操作變爲針對Spark中對RDD的Transformation操作，將RDD經過操作變成中間結果保存在內存中。

架構圖:

解釋:

Spark Streaming從各種輸入源中讀取數據，並把數據分組爲小的批次
時間區間的大小是由批次間隔這個參數決定的。批次間隔一般設在0.5秒到幾秒之間
每個輸入批次都形成一個RDD，以 Spark 作業的方式處理並生成其他的 RDD
驅動器程序中的 StreamingContext 會週期性地運行 Spark 作業來處理這些數據
每個RDD代表數據流中一個時間片內的數據

原理詳細圖解:

按照時間間隔(BatchInterval 0.5s 到幾秒不等) 劃分數據爲微批次（Micro-Batch），每批次數據當做RDD，再進行處理分析
創建StreamingContext流試上下文對象,但是底層還是SparkContext

啓動接收器Receiver,Receiver作爲Task任務運行在Executor中,並且一直運行,一直接收數據
Receive按照時間間隔來接收數據,將流試數據劃分爲多個Block塊,劃分流式數據的時間間隔BlockInterval，默認值爲200ms，通過屬性【spark.streaming.blockInterval】設置
最後到達時間間隔BlockInterval,加載SparkContext處理數據

循環處理流試數據下圖:

總結:
整個Streaming運行過程中，涉及到兩個時間間隔：

批次時間間隔：BatchInterval
每批次數據的時間間隔，每隔多久加載一個Job；
Block時間間隔：BlockInterval
接收器劃分流式數據的時間間隔，可以調整大小哦，官方建議最小值不能小於50ms；
默認值爲200ms，屬性：spark.streaming.blockInterval，調整設置

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Apache DolphinScheduler 3.1.9 版本發佈：提升系統的穩定性和性能

🚀我們很高興宣佈，Apache DolphinScheduler 的最新版本 3.1.9 已正式發佈！此版本在 3.1.8 的基礎上進行了關鍵的 bug 修復和文檔更新，共計修復了 14 個 bug 和改進了 3 個文檔。主要更新亮點

2023-12-28 21:27:33

Koordinator 助力雲原生應用性能提升：小紅書混部技術實踐

編者按： Koordinator 是一個開源項目，是基於阿里巴巴內部多年容器調度、混部實踐經驗孵化誕生，是行業首個生產可用、面向大規模場景的開源混部系統，致力於提升應用服務質量，優化資源使用效率。自 2022 年 4 月正式開源以來，吸

2023-12-06 01:15:02

雲原生場景下月省 10 萬元資源成本，這家企業做對了什麼

相信近期從事基礎設施工作的各位，對 IT 成本治理，以及 FinOps 體系的概念已經有了一些認知。在 Google 近 5 年的熱度趨勢中，FinOps 的趨勢也在持續上升。在阿里雲的同學與客戶實際工作協同中，我們發現成本治理是幾乎每位

2023-12-01 01:10:35

米哈遊大數據雲原生實踐

近年來，容器、微服務、Kubernetes 等各項雲原生技術的日漸成熟，越來越多的公司開始選擇擁抱雲原生，並開始將 AI、大數據等類型的企業應用部署運行在雲原生之上。以 Spark 爲例，在雲上運行 Spark 可以充分享有公共雲的彈性資源

2023-11-23 00:39:26

Koordinator 支持 K8s 與 YARN 混部，小紅書在離線混部實踐分享

背景介紹 Koordinator 是一個開源項目，基於阿里巴巴在容器調度領域多年累積的經驗孵化誕生，目前已經支持了 K8s 生態內的在離線混部，然而在 K8s 生態外，仍有相當數量的用戶會將大數據任務運行在 Apache Hadoop Y

2023-11-17 01:57:57

Hago 的 Spark on ACK 實踐

Hago 於 2018 年 4 月上線，是歡聚集團旗下的一款多人互動社交明星產品。Hago 融合優質的匹配能力和多樣化的垂類場景，提供互動遊戲、多人語音、視頻直播、 3D 虛擬形象互動等多種社交玩法，致力於爲用戶打造高效、多樣、最具沉浸式的

2023-11-17 01:57:56

datax 併發寫入問題解決？

問題描述：https://my.oschina.net/xiaominmin/blog/10111950 OriginalConfPretreatmentUtil - 您的配置有誤. 由於您讀取數據庫表採用了querySql的方式, 所以

2023-10-08 00:01:55

MaxCompute 發佈按量付費閒時版，計算成本最高節省66.66%！

什麼是按量付費閒時版開通MaxCompute按量付費閒時版，意味着用戶可以使用MaxCompute閒時計算資源（os_SpotQuota），它是一種共享型按量付費計算資源，閒時計算資源池與按量付費標準版計算資源共享，與包年包月計算資源隔

2023-08-17 00:29:28

spark sql 內置函數不支持在內部寫spark sql代碼

%spark import org.apache.spark.sql.expressions.UserDefinedFunction import org.apache.spark.sql.functions.udf impo

2023-08-01 00:03:04

使用 Apache DolphinScheduler 進行 EMR 任務調度

By AWS Team 前言隨着企業規模的擴大，業務數據的激增，我們會使用 Hadoop/Spark 框架來處理大量數據的 ETL/聚合分析作業，⽽這些作業將需要由統一的作業調度平臺去定時調度。在 Amazon EMR 中，可以使用

2023-07-26 21:20:14

地理!sadfafasfasdf!位置spark sql 範圍查詢 geo 類型查詢!!

你仍然可以通過在 Spark 中使用第三方庫來執行地理空間查詢。GeoSpark 是一個開源的 Spark 擴展庫，提供了對地理空間數據的索引、查詢和分析功能。你可以將 GeoSpark 添加到 Spark 項目的依賴中，並使用它提供的

2023-07-20 00:18:25

spark sql 讀取clickhouse 多表然後進行join

sparksql 讀取clickhouse 的user表和order表，並且通過spark sql做join查詢 import org.apache.spark.sql.*; public class ClickHouseSpar

2023-07-19 12:14:12

如何結合實際業務進行 ECS 規格選型與容量驗證

隨着雲原生技術的蓬勃發展以及雲產品價格愈發低廉，越來越多 Geek 開發者、技術愛好者選擇 OSS 對象存儲、ECS 雲服務器等基礎產品構建自己的網站、網盤等應用。但對於企業而言，面對種類與規格的豐富的 ECS 雲服務器，如何瞭解實例規格的

2023-07-06 13:15:30

Apache DolphinScheduler GitHub Star 突破 10000+！

今天，Apache DolphinScheduler GitHub Star 突破 10000，項目迎來一個重要里程碑。這表明 Apache DolphinScheduler 已經在全球的開發者和用戶中獲得了廣泛的認可和使用。

2023-06-29 21:22:56

助力長城汽車數據管道平臺連接“數據孤島”，加強數據一元化，Apache DolphinScheduler 的角色定位

講師簡介長城汽車-IDC-數據中臺部-劉永飛高級工程師我是長城汽車 IDC-數據中臺部的劉永飛，給大家分享一下我們自研的一個數據同步工具平臺，以及在使用這個工具過程中遇到的問題。今天的分享主要有四個部分：我們自研的數據管道工具平

2023-06-13 11:33:03

24小時熱門文章

最新文章

最新評論文章