Spark 序列化問題全解

在Spark應用開發中，很容易出現如下報錯：

org.apache.spark.SparkException: Task not serializable
  at org.apache.spark.util.ClosureCleaner$.ensureSerializable(ClosureCleaner.scala:304)
  at org.apache.spark.util.ClosureCleaner$.org$apache$spark$util$ClosureCleaner$$clean(ClosureCleaner.scala:294)
  at org.apache.spark.util.ClosureCleaner$.clean(ClosureCleaner.scala:122)
  at org.apache.spark.SparkContext.clean(SparkContext.scala:2058)
  ...
Caused by: java.io.NotSerializableException

該報錯意思是用戶代碼的transformation操作中包含不可序列化的對象引用。

本文主要從以下三個方面解釋Spark 應用中序列化問題。
1、Java序列化含義？
2、Spark代碼爲什麼需要序列化？
3、如何解決Spark序列化問題？

1、Java序列化含義？

Spark是基於JVM運行的進行，其序列化必然遵守Java的序列化規則。

序列化就是指將一個對象轉化爲二進制的byte流（注意，不是bit流），然後以文件的方式進行保存或通過網絡傳輸，等待被反序列化讀取出來。序列化常被用於數據存取和通信過程中。

對於java應用實現序列化一般方法：

class實現序列化操作是讓class 實現Serializable接口，但實現該接口不保證該class一定可以序列化，因爲序列化必須保證該class引用的所有屬性可以序列化。
這裏需要明白，static和transient修飾的變量不會被序列化，這也是解決序列化問題的方法之一，讓不能序列化的引用用static和transient來修飾。（static修飾的是類的狀態，而不是對象狀態，所以不存在序列化問題。transient修飾的變量，是不會被序列化到文件中，在被反序列化後，transient變量的值被設爲初始值，如int是0，對象是null）
此外還可以實現readObject()方法和writeObject()方法來自定義實現序列化。（具體用例見參考鏈接）

2、Spark的transformation操作爲什麼需要序列化？

Spark是分佈式執行引擎，其核心抽象是彈性分佈式數據集RDD，其代表了分佈在不同節點的數據。Spark的計算是在executor上分佈式執行的，故用戶開發的關於RDD的map，flatMap，reduceByKey等transformation 操作（閉包）有如下執行過程：

代碼中對象在driver本地序列化
對象序列化後傳輸到遠程executor節點
遠程executor節點反序列化對象
最終遠程節點執行
故對象在執行中需要序列化通過網絡傳輸，則必須經過序列化過程。

###3、如何解決Spark序列化問題？
如果出現NotSerializableException報錯，可以在spark-default.xml文件中加入如下參數來開啓SerializationDebugger功能類，從而可以在日誌中打印出序列化出問題的類和屬性信息。

spark.executor.extraJavaOptions  -Dsun.io.serialization.extendedDebugInfo=true
spark.driver.extraJavaOption -Dsun.io.serialization.extendedDebugInfo=true

對於scala語言開發，解決序列化問題主要如下幾點：

在Object中聲明對象（每個class對應有一個Object）
如果在閉包中使用SparkContext或者SqlContext，建議使用SparkContext.get() and SQLContext.getActiveOrCreate()
使用static或transient修飾不可序列化的屬性從而避免序列化。
注：scala語言中，class的Object

對於java語言開發，對於不可序列化對象，如果本身不需要存儲或傳輸，則可使用static或trarnsient修飾；如果需要存儲傳輸，則實現writeObject()/readObject()使用自定義序列化方法。

####此外注意
對於Spark Streaming作業，注意哪些操作在driver，哪些操作在executor。因爲在driver端（foreachRDD）實例化的對象，很可能不能在foreach中運行，因爲對象不能從driver序列化傳遞到executor端（有些對象有TCP鏈接，一定不可以序列化）。所以這裏一般在foreachPartitions或foreach算子中來實例化對象，這樣對象在executor端實例化，沒有從driver傳輸到executor的過程。

dstream.foreachRDD { rdd =>
  val where1 = "on the driver"
    rdd.foreach { record =>
      val where2 = "on different executors"
    }
  }
}

參考資料：
Avoid NotSerializable Error in Spark Job
spark not serializable problem
Spark Streaming / Tips on Running Streaming Apps inside Databricks
Java 序列化的高級認識
 什麼是writeObject 和readObject？可定製的序列化過程

文章會同步到公衆號，關注公衆號，交流更方便：

Spark 序列化問題全解

1、Java序列化含義？

2、Spark的transformation操作爲什麼需要序列化？

芯片產業管理和營銷指北（1）—— 產品線經理主要職能

記一次疑似JVM內存泄漏的排查過程

Spark性能調優2-總結分享

Spark streaming 作業需要注意的問題

三年工作經歷總結（創業公司、中小公司和大廠經歷）

Spark性能調優1-測試記錄

阿里工作第一年感悟

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結