Spark本地調試遇到的 CheckPoint 序列化問題和org.apache.hadoop.nativeio.NativeIO$windows.createFilewithMode0

原創

2020-06-27 08:58

第一個問題

Dstream checkpointing has been enabled but the Dstreams with their functions are not serializable

原因是創建JSSC的函數使用到 set參數，不能使用原生的 map.keyset因爲不支持序列化

通過spark消費kafka 並且元數據通過checkpoint保存

  Function0<JavaStreamingContext>  createContextFunc= () -> createContext(conf);
  JavaStreamingContext jssc = CommonUtil.getJavaStreamingContext(
                ConfigurationManager.getProperty("spark.CheckPointPath"), createContextFunc);

問題是創建函數裏用到了通過讀取redis保存的topic-partition map信息直接使用的map.keyset 但是map.keyset是不可序列化的

解決辦法

new HashSet<>(map.keyset())

第二個問題

org.apache.hadoop.nativeio.NativeIO$windows.createFilewithMode0

解決

解決方案移除 hadoop.dll

參考：

https://stackoverflow.com/questions/51680277/java-lang-unsatisfiedlinkerror-org-apache-hadoop-io-nativeio-nativeiowindows-c

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

SparkStreaming 運行架構

SparkStreaming 進行數據的處理大致分爲四個步驟：啓動流處理引擎、接受以及存儲數據、處理數據、輸出結果等。（1）初始化StreamingContext對象，在該對象啓動過程中實例化DStreamGraph和JobGenra

大数据开发

2020-06-30 22:10:24

sparkStreaming介紹及sparkStreaming整合Kafka

1、sparkStreaming概述 1.1 什麼是sparkStreaming Spark Streaming makes it easy to build scalable fault-tolerant streaming

2020-06-29 08:55:48

hbase寫入一段時間後變的越來越慢

一、概況集羣環境如下表：集羣機器存儲內存 CPU 每日數據 HW大數據平臺 160臺 6PB 10TB 8000 10億數據存儲在kafka中，130個分區，採用sparkstreaming

毛毛虫之路

2020-06-24 03:02:58

實時告警架構優化實戰

簡介線上有一個告警服務採用sparkstreaming+kafka的模式實時處理數據進行布控告警，10s一個批次，34個executor，每個4core，kafka有260個分區，採用直讀的方式並且打開了慢執行推測。運行一段時間後，都

毛毛虫之路

2020-06-24 03:02:58

spark：sparkstreaming 0.10版本從 kafka 採集數據，並存儲到 Hbase Demo示例

pom： <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="htt

花和尚也有春天

2020-06-23 00:02:29

Spark streaming+Kafka

本文利用SparkStreaming+Kafka實現實時的統計uv，即獨立訪客，一個用戶一天內訪問多次算一次，這個看起來要對用戶去重，其實只要按照WordCount的思路，最後輸出key的數量即可，所以可以利用SparkStreaming

我思念的城市ZZZ

2020-06-19 03:18:21

kafka掃盲篇

1.kafka是什麼？ kafka是一個消息中間件，是一種分佈式消息發佈--訂閱系統。它的作用可以通過一個例子來粗略理解：例：有兩個角色，生產者---用於生產雞蛋、消費者---消費雞蛋，生產者直接把生產的雞蛋提供給消費者，考慮幾個情景：

2020-06-13 07:56:02

Spark Streaming的核心DStream之轉換操作實例

wx5da03a3bd2999

2020-05-25 17:41:11

spark streaming 示例

2020-02-21 17:45:59

Spark Streaming筆記

2020-02-21 10:37:27

kafka+sparkStreaming+mysql

一、說明 1、一個程序模擬用戶每個時間點到達的地方和走的步數信息，並實時寫入kafka主題；sparkStreaming實時從kafka消費這些信息進行分析並存儲到mysql;這裏直接存儲到mysql; 2、sparkStreaming存

时不我待，一日千里

2020-07-06 03:53:24

spark-18.sparkStreaming_3_DStream的轉換操作與輸出

轉換操作 1.無狀態轉換 map(func) flatMap(func) fileter(func) repartition(numPartitionts) union(otherStream) count

2020-07-04 08:37:58

基於spark的流式數據處理—spark streaming

本文主要介紹一下spark streaming，從以下三個方面來介紹： Spark Streaming設計 Spark Streaming與Storm的對比從“Hadoop+Storm”架構轉向Spark架構 Spark S

心相印-Garrett

2020-07-01 08:24:29

基於spark的流式數據處理—DStream概述

本文介紹spark streaming的DStream用法： Spark Streaming工作機制 Spark Streaming程序的基本步驟創建StreamingContext對象 Spark Streaming工作機

心相印-Garrett

2020-07-01 08:24:28

SparkStreaming 運行架構

SparkStreaming 進行數據的處理大致分爲四個步驟：啓動流處理引擎、接受以及存儲數據、處理數據、輸出結果等。（1）初始化StreamingContext對象，在該對象啓動過程中實例化DStreamGraph和JobGenra

大数据开发

2020-06-30 22:10:24

24小時熱門文章

HTTP URL 詳解

最新文章

最新評論文章