Spak Streaming算子:checkpoint

原創

lxp_火力全开

2019-02-01 13:53

介紹

背景 : 流應用成型必須全天候運行,因此必須適應與應用程序邏輯無關的故障(如系統故障,JVM崩潰等),爲此Spark Streaming 需要將足夠的信息檢測點容錯到存儲系統,以便能夠從故障中恢復
檢測點包括兩種類型 :

元數據檢測點 : 將定義的流計算的信息保存到HDFS等容錯存儲
包括:
配置——用於創建流應用程序的配置。
DStream操作——定義流應用程序的DStream操作集。
不完整批處理—作業已排隊但尚未完成的批處理。
數據點檢測 : 將生成的RDDs保存到可靠的存儲中
在一些跨多個批次組合數據的有狀態轉換中，這是必要的。在這樣的轉換中，生成的RDDs依賴於前幾個批次的RDDs，這會導致依賴鏈的長度隨時間不斷增加。爲了避免恢復時間的無限制增加(與依賴鏈成正比)，有狀態轉換的中間rdd會定期檢查到可靠的存儲(例如HDFS)，以切斷依賴鏈

另外

無法從Spark Streaming中的檢查點恢復累加器和廣播變量。如果啓用檢查點並同時使用累加器或廣播變量，則必須爲累加器和廣播變量創建延遲實例化的單例實例，以便在驅動程序在失敗時重新啓動後對它們進行重新實例化。

官方文檔查看:
http://spark.apache.org/docs/latest/streaming-programming-guide.html#checkpointing

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Spark Streaming狀態操作: updateStateByKey、mapWithState

在Spark Streaming中，DStream的轉換分爲有狀態和無狀態兩種。無狀態的操作，即當前批次的處理不依賴於先前批次的數據，如map()、flatMap()、filter()、reduceByKey()、groupByKey()

2020-07-07 21:46:09

Spark Streaming（一）—— Spark Streaming介紹

文章目錄1. 什麼是Spark Streaming2. Spark Streaming特點3. 常用的實時計算引擎4. Spark Streaming內部結構5. StreamingContext對象創建方式6. 離散流DStre

2020-07-03 19:00:42

How-to: make spark streaming collect data from Kafka topics and store data into hdfs

Develop steps: Develop class which is used for connect kafka topics and store data into hdfs. In spark project: ./exam

chenfangfang_2015

2020-07-03 14:12:35

第四天：Spark Streaming

Spark Streaming概述 1. Spark Streaming是什麼 Spark Streaming用於流式數據的處理。Spark Streaming支持的數據輸入源很多，例如：Kafka、Flume、Twitter、Z

2020-07-02 16:37:09

Spark Streaming-NetworkWordCount

目錄一、spark streaming編程步驟二、spark streaming官方示例流程研究 1、NetworkWordCount 2、本地運行 a.設置參數：localhost 9999 b.終端鍵入nc -lk 9999，並輸

2020-06-30 18:05:11

spark消費kafka問題記錄(cdh5.16.2)

版本如下 kafka和spark都安裝完成後，執行spark2-shell竟然報錯 Error: A JNI error has occurred, please check your installation and try ag

hadoop程序猿

2020-06-28 19:49:54

初識Spark Streaming

文章目錄Spark Streaming特點Spark Streaming概覽Spark Streaming應用場景流處理過程Spark Streaming案例參考官網：http://spark.apache.org/strea

2020-06-27 13:32:34

大數據IMF傳奇行動絕密課程第85課：基於HDFS的SparkStreaming案例實戰和內幕源碼解密

基於HDFS的SparkStreaming案例實戰和內幕源碼解密 1、Spark Streaming on HDFS實戰 2、Spark Streaming on HDFS源碼解密 hadoop dfs -mkdir /libr

2020-06-27 09:57:41

大數據IMF傳奇行動絕密課程第100-101課：使用Spark Streaming+Spark SQL+Kafka+FileSystem綜合案例

使用Spark Streaming+Spark SQL+Kafka+FileSystem綜合案例 1、項目分析流程圖 2、項目代碼實戰 Flume sink到Kafka需要一個jar包支持 https://github.co

2020-06-27 09:57:41

大數據IMF傳奇行動絕密課程第84課：圖解StreamingContext、DStream、Receiver並結合源碼分析

圖解StreamingContext、DStream、Receiver並結合源碼分析 1、原理流程圖 2、源碼初探

2020-06-27 09:57:31

大數據IMF傳奇行動絕密課程第86課：SparkStreaming數據源Flume實際案例分享

SparkStreaming數據源Flume實際案例分享 1、Flume簡要介紹 2、Spark Streaming on Flume案例介紹一、什麼是Flume? 　　flume 作爲 cloudera 開發的實時日誌

2020-06-27 09:57:31

Kafka偏移量(Offset)管理

1.定義 Kafka中的每個partition都由一系列有序的、不可變的消息組成，這些消息被連續的追加到partition中。partition中的每個消息都有一個連續的序號，用於partition唯一標識一條消息。 Offset記錄着

2020-06-26 03:29:54

SparkStreaming消費kafka中的數據保存到HBase中簡單demo

概述數據處理流程:kafka–>spark streaming -->hbase 最近在做數據處理,但是通過java api進行處理的,目前想通過spark去做處理,這裏記下了一個簡單的實現,但是生產上肯定不是那麼簡單的.後面會

爆发的~小宇宙

2020-06-25 02:39:05

Spark Streaming + Kafka Manager + (Kafka-spark-consumer) 組合

在之前的文章中提到了，使用 Spark Streaming + Kafka-spark-consumer 來應對Driver程序代碼改變，無法從checkpoint中反序列化的問題，即其會自動將kafka的topic中，每個par

2020-06-24 03:36:22

Spark streaming消費kafka程序報No output streams registered, so nothing to execute異常

在做kafka割接測試消費程序只消費不做數據處理時編寫代碼遇到了No output streams registered, so nothing to execute異常的問題：代碼如下： public void execute()

2020-06-23 22:31:25

24小時熱門文章

最新文章

最新評論文章