Spark Streaming checkpoint概述

原創

2019-01-18 16:00

Spark Streaming揭祕

checkpoint的使用

今天談下sparkstreaming中，另外一個至關重要的內容Checkpoint。
首先，我們會看下checkpoint的使用。另外，會看下在應用程序重新啓動時，是如何處理checkpoint的。

Checkpoint保存什麼

checkpoint作爲容錯的設計，基本思路是把當前運行的狀態，保存在容錯的存儲系統中(一般是hdfs)。對於容錯的處理，肯定是圍繞作業緊密相關的，保存內容包括元數據和數據兩部分。

從元數據角度講，SparkStreaming中會有哪些內容需要保存呢，主要有三類：

程序的配置
應用程序的業務邏輯，保存在DStreamGraph裏。
還有哪些沒有處理的數據，即沒有完成的batch。

從數據角度講下，Checkpoint是對於狀態(state)操作生效。
首先，一般情況下在接收數據並保存時，是使用WAL來容錯，這個昨天討論過，並不放在checkpoint裏。
對狀態(state)的DStream操作(updateStateByKey)，操作會跨多個batch duration，後面數據對前面的有依賴，隨着時間的推移，依賴鏈條會越來越長，這個時候需要使用checkpoint，把這個長鏈條持久化，成爲短鏈條。

在官方例子RecoverableNetworkCount中，我們看到可以用如下方法創建一個可恢復的streamingContext。

那關鍵就是getOrCreate方法

裏面提供了兩種創建方式，第一次是創建新的streaming context，否則會從checkpoint數據中創建出上下文。第三個輸入參數是Hadoop的配置，一般來說checkpoint存放在hdfs中。ignoreReadError，可以控制是否拋出異常。

讓我們進入checkpoint的read方法。這裏面是循環checkpoint目錄中的文件，讀取並反序列化，之後返回。

我們看下反序列化方法，生成一個Checkpoint類型。

Checkpoint裏面包含了所有我們進行保存的內容。

使用checkpoint恢復

下面我們來看下使用checkpoint構建環境的過程。

首先，調用sparkContext.getOrCreate 來構建sparkContext。

之後是恢復DStreamGraph。

DStreamGraph的恢復過程中，關鍵是恢復所有的outputStream。

在恢復的過程中，默認是根據checkpoint文件重建RDD。

checkpoint的數據是保存在ReliableCheckpointRDD中，我們看下compute方法。可以看到，就是從checkpoint文件讀取數據。

最後，還有恢復checkpointDuration。

Checkpoint的生成

生成是在JobGenerator中觸發。

在每次生成Job後，都會觸發checkpoint的寫入事件。

doCheckpoint會寫入一個Checkpoint對象，其核心就是採用序列化技術把對象寫入磁盤。

今天對checkpoint的介紹就到這裏，對於整個機制來看，還是有些漏洞，如果目錄數據存在，但是代碼變化了，有可能出現不能讀取checkpoint裏的內容，希望後續版本能改進。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Spark Streaming狀態操作: updateStateByKey、mapWithState

在Spark Streaming中，DStream的轉換分爲有狀態和無狀態兩種。無狀態的操作，即當前批次的處理不依賴於先前批次的數據，如map()、flatMap()、filter()、reduceByKey()、groupByKey()

2020-07-07 21:46:09

Spark Streaming（一）—— Spark Streaming介紹

文章目錄1. 什麼是Spark Streaming2. Spark Streaming特點3. 常用的實時計算引擎4. Spark Streaming內部結構5. StreamingContext對象創建方式6. 離散流DStre

2020-07-03 19:00:42

How-to: make spark streaming collect data from Kafka topics and store data into hdfs

Develop steps: Develop class which is used for connect kafka topics and store data into hdfs. In spark project: ./exam

chenfangfang_2015

2020-07-03 14:12:35

第四天：Spark Streaming

Spark Streaming概述 1. Spark Streaming是什麼 Spark Streaming用於流式數據的處理。Spark Streaming支持的數據輸入源很多，例如：Kafka、Flume、Twitter、Z

2020-07-02 16:37:09

Spark Streaming-NetworkWordCount

目錄一、spark streaming編程步驟二、spark streaming官方示例流程研究 1、NetworkWordCount 2、本地運行 a.設置參數：localhost 9999 b.終端鍵入nc -lk 9999，並輸

2020-06-30 18:05:11

spark消費kafka問題記錄(cdh5.16.2)

版本如下 kafka和spark都安裝完成後，執行spark2-shell竟然報錯 Error: A JNI error has occurred, please check your installation and try ag

hadoop程序猿

2020-06-28 19:49:54

初識Spark Streaming

文章目錄Spark Streaming特點Spark Streaming概覽Spark Streaming應用場景流處理過程Spark Streaming案例參考官網：http://spark.apache.org/strea

2020-06-27 13:32:34

大數據IMF傳奇行動絕密課程第85課：基於HDFS的SparkStreaming案例實戰和內幕源碼解密

基於HDFS的SparkStreaming案例實戰和內幕源碼解密 1、Spark Streaming on HDFS實戰 2、Spark Streaming on HDFS源碼解密 hadoop dfs -mkdir /libr

2020-06-27 09:57:41

大數據IMF傳奇行動絕密課程第100-101課：使用Spark Streaming+Spark SQL+Kafka+FileSystem綜合案例

使用Spark Streaming+Spark SQL+Kafka+FileSystem綜合案例 1、項目分析流程圖 2、項目代碼實戰 Flume sink到Kafka需要一個jar包支持 https://github.co

2020-06-27 09:57:41

大數據IMF傳奇行動絕密課程第84課：圖解StreamingContext、DStream、Receiver並結合源碼分析

圖解StreamingContext、DStream、Receiver並結合源碼分析 1、原理流程圖 2、源碼初探

2020-06-27 09:57:31

大數據IMF傳奇行動絕密課程第86課：SparkStreaming數據源Flume實際案例分享

SparkStreaming數據源Flume實際案例分享 1、Flume簡要介紹 2、Spark Streaming on Flume案例介紹一、什麼是Flume? 　　flume 作爲 cloudera 開發的實時日誌

2020-06-27 09:57:31

Kafka偏移量(Offset)管理

1.定義 Kafka中的每個partition都由一系列有序的、不可變的消息組成，這些消息被連續的追加到partition中。partition中的每個消息都有一個連續的序號，用於partition唯一標識一條消息。 Offset記錄着

2020-06-26 03:29:54

SparkStreaming消費kafka中的數據保存到HBase中簡單demo

概述數據處理流程:kafka–>spark streaming -->hbase 最近在做數據處理,但是通過java api進行處理的,目前想通過spark去做處理,這裏記下了一個簡單的實現,但是生產上肯定不是那麼簡單的.後面會

爆发的~小宇宙

2020-06-25 02:39:05

Spark Streaming + Kafka Manager + (Kafka-spark-consumer) 組合

在之前的文章中提到了，使用 Spark Streaming + Kafka-spark-consumer 來應對Driver程序代碼改變，無法從checkpoint中反序列化的問題，即其會自動將kafka的topic中，每個par

2020-06-24 03:36:22

Spark streaming消費kafka程序報No output streams registered, so nothing to execute異常

在做kafka割接測試消費程序只消費不做數據處理時編寫代碼遇到了No output streams registered, so nothing to execute異常的問題：代碼如下： public void execute()

2020-06-23 22:31:25

24小時熱門文章

最新文章

最新評論文章