org.apache.spark.SparkException: Task not serializable

原創

2019-08-28 15:17

在spark shell中運行下述代碼：

    val max_array = max_read_fav_share_vote.collect
    val max_read = max_array(0)(0).toString.toDouble
    val max_fav = max_array(0)(1).toString.toDouble
    val max_share = max_array(0)(2).toString.toDouble
    val max_vote = max_array(0)(3).toString.toDouble
    
    val id_hot = serviceid_read_fav_share_vote.map(x=>
    {
      val id = x.getString(0)
      val read = x.getLong(1).toDouble
      val fav = x.getLong(2).toDouble
      val share = x.getLong(3).toDouble
      val vote = x.getLong(4).toDouble

      val hot = 0.1 * (read/ max_read) + 0.2 * (fav/ max_fav) +0.3 * (share/ max_share) +0.4 * (vote/ max_vote)
      (id,hot)
     }).toDF("id","hot")

出現錯誤：

這是因爲在map、filter中使用了外部的變量，而spark中任務的執行是需要將對象分佈式傳送到各個節點上去的。因爲數據就分佈式存儲在各個節點上，因此傳送之前需要將對象序列化，但是有些變量不能序列化。

解決方法是：
對於不能序列化的變量，就不進行傳送，讓其在各個節點上使用即可，將map改成使用mapPartitions等方法即可，代碼修改爲：

 val id_hot = serviceid_read_fav_share_vote.mapPartitions{
      partition =>
        partition.map{
            x=>
            {
              val id = x.getString(0)
              val read = x.getLong(1).toDouble
              val fav = x.getLong(2).toDouble
              val share = x.getLong(3).toDouble
              val vote = x.getLong(4).toDouble

              val hot = 0.1 * (read/max_read) + 0.2 * (fav/max_fav) + 0.3 * (share/max_share) +0.4 * (vote/max_vote)
              (id,hot)
            }
        }
    }.toDF("id","hot")

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

在spark，MapReduce 或 Flink 程序裏面制定環境變量

以jdk來舉例，當我們需要更高版本的jdk時，而默認的環境引用的是低版本的jdk，會引發如下錯誤： Exception in thread "main" java.lang.UnsupportedClassVersionError:

梦里却知是客

2020-07-08 11:59:58

[Spark] 學習筆記 (一)

1. 分區爲了讓多個執行器並行地工作，Spark 將數據分解成多個數據塊，每個數據塊叫做一個分區。分區是位於集羣中的一臺物理機上的多行數據的集合，DataFrame 的分區也說明了在執行過程中，數據在集羣中的物理分佈。如果只

風の唄を聴け

2020-07-08 04:26:33

大數據入門（十一）win10下Eclipse安裝scala

目錄ide的下載和安裝 ide的下載和安裝先要安裝scala：大數據入門（十）win10的Scala和Spark安裝下載IDE：http://scala-ide.org/download/sdk.html 解壓縮之後運行e

2020-07-08 12:35:23

大數據入門（十二）IDEA上Scala的插件配置

configure-》plugin

2020-07-08 12:35:22

Spark系列：Spark學習筆記

Spark 閱讀官方文檔 Spark Quick Start Spark Programming Guide Spark SQL, DataFrames and Datasets Guide Cluster Mode Overv

2020-07-08 12:17:40

Spark 線性迴歸模型異常

java.lang.AssertionError: assertion failed: lapack.dppsv returned 9. at scala.Predef$.assert(Predef.scala:179)

2020-07-08 12:17:29

spark日常報錯問題-持續性更新

1：spark運行過程中出現與driver鏈接異常，並存在磁盤讀寫一場: java.io.IOException: Failed to delete: /mnt/sd04/yarn/nm/usercache/hdfs/appcache/a

梦里却知是客

2020-07-08 11:59:58

pySpark DataFrame簡介

1. 列名類型 pyspark.sql.types module DataType NullType StringType BinaryType BooleanType DateType TimestampType Decimal

2020-07-08 09:36:34

Spark實現xgboost多分類(python)

1. spark-xgboost Java包主要需要xgboost4j-spark-0.90.jar, xgboost4j-0.90.jar, 以及調用代碼 sparkxgb.zip. GitHub上面有xgboost jav

2020-07-08 09:36:34

實戰|使用Spark結構化流寫入Hudi

https://zhuanlan.zhihu.com/p/133316667 歡迎關注微信公衆號：ApacheHudi 1. 項目背景傳統數倉的組織架構是針對離線數據的OLAP（聯機事務分析）需求設計的，常用的導入數據方式爲採用sqoo

2020-07-08 05:50:47

Apache Hudi：統一批和近實時分析的存儲和服務

https://blog.csdn.net/wypblog/article/details/104890482?utm_medium=distribute.pc_relevant_t0.none-task-blog-BlogCommend

2020-07-08 05:50:47

一次查詢

應該是有一小部分數據需要特殊處理嘗試90天，反覆重試3個task: 其實處理很快，就是shuffle read時間很久第一次150天數據量嘗試後期效果：怎麼知道爲什麼會超出內存太多？ combin

2020-07-08 05:39:30

spark-sql使用hive的自定函數配置

1、spark-sql可以直接使用hive的自定義函數，而不需要重新寫一套spark-sql的自定義函數，這裏較大家一個簡單的配置方式即可 2、將hive的自定義函數jar拷貝到/usr/lib/spark-current/jars，我們

2020-07-08 05:08:59

Spark中DataFrame強制類型轉換

最近從MongoDB讀取數據然後插入到Clickhouse中，存在數值類型不一致的問題。因此需要進行強制類型轉換： df = df.select(dataset.col("cnt").cast(IntegerType).as("cnt"

2020-07-08 04:49:41

[Spark] Spark/PySpark 的安裝及配置

1. 安裝 JAVA 詳細步驟可以參考: [Linux] 安裝 JAVA 2. 安裝 Spark 下載單機版 Spark, 當前最新版本 spark-2.4.4-bin-hadoop2.7.tgz wget http://mi

風の唄を聴け

2020-07-08 04:26:33

24小時熱門文章

最新文章

最新評論文章