在notebook中使用pyspark遇到的问题

原創

2018-08-29 04:14

代码：

from pyspark import SparkContext
sc = SparkContext()
rdd.getNumPartitions()
rdd.glom().collect()

遇到的问题：
执行rdd.glom().collect()时出现如下错误：

Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe.
: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 0.0 failed 1 times, most recent failure: Lost task 0.0 in stage 0.0 (TID 0, localhost, executor driver): org.apache.spark.api.python.PythonException: Traceback (most recent call last):
  File "/usr/local/spark/python/lib/pyspark.zip/pyspark/worker.py", line 123, in main
    ("%d.%d" % sys.version_info[:2], version))
Exception: Python in worker has different version 3.6 than that in driver 2.7, PySpark cannot run with different minor versions.Please check environment variables PYSPARK_PYTHON and PYSPARK_DRIVER_PYTHON are correctly set

解决办法：
在集群上的每个节点上添加环境变量
export PYSPARK_DRIVER_PYTHON=/usr/local/anacond/bin/python3
export PYSPARK_PYTHON=/usr/local/anacond/bin/python3
记得使用source命令生效，然后重启集群中的所有节点，重启spark

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

pyspark Window 窗口函数

參考：Introducing Window Functions in Spark SQL 窗口函數 At its core, a window function calculates a return value for ever

2020-07-07 22:37:37

spark读取elasticsearch nested array

anton spark讀elasticsearch array anton elasticsearch數組在Elasticsearch中，沒有專用的數組類型。默認情況下，任何字段都可以包含零個或多個值(數組中的所有值必須具有相同

Insightzen_xian

2020-07-07 22:21:01

博客目录——Spark学习笔记

更新時間：2019-03-07 Python API 【PySpark學習筆記一】彈性分佈式數據集RDD 【PySpark學習筆記二】DataFrame用法【PySpark學習筆記三】spark-submit詳解 Scala

2020-07-07 01:31:07

Pyspark ValueError: Cannot run multiple SparkContexts at once 解决之道

pyspark執行可能就遇到問題 ValueError: Cannot run multiple SparkContexts at once; existing SparkContext(app=PySparkShell, master

2020-07-06 17:59:34

spark构建回归模型

Spark機器學習第六章實現加載數據集數據集爲Bike-Sharing-Dataset path = "hdfs:///user/yy/Bike-Sharing-Dataset/hour_noheader.csv" raw_

2020-07-06 13:47:14

pyspark dataframe 自定义分区器

def myp(x): return x % 100 pp = F.udf(myp) df = spark.range(900) df.show() df = df.repartitionByRange(pp('i

2020-07-05 13:35:28

(待解决) java.io.EOFException: End of File Exception between local host

背景 spark 設置checkpoint 的地址爲阿里雲的hdfs 報錯 spark.sparkContext.setCheckpointDir('dfs://f***iyuncs.com:10290/test') 集羣

2020-07-05 13:35:26

pyspark入门系列 - 02 pyspark.sql入口 SparkSession简介与实践

SparkSesson爲使用Dataset和DataFrame API編程Spark的入口點。 SparkSesson對象可以創建DataFrame，將Dataframe註冊爲表，並在表上執行SQL、緩存表、讀parquet文件等

2020-07-04 10:41:11

pyspark入门系列 - 03 pyspark.sql.DataFrame函数汇总与实践

先放上pyspark.sql.DataFrame的函數彙總 from pyspark.sql import SparkSession spark = SparkSession.Builder().master('local')

2020-07-04 10:00:55

pyspark入门系列 --pyspark.sql.Column函数汇总与实战

from pyspark.sql import SparkSession spark = SparkSession.Builder().master('local').appName('sparksqlColumn').getO

2020-07-04 10:00:55

pyspark入门系列 - 01 统计文档中单词个数

導入SparkConf和SparkContext模塊，任何Spark程序都是SparkContext開始的，SparkContext的初始化需要一個SparkConf對象，SparkConf包含了Spark集羣配置的各種參數。初始

2020-07-04 10:00:55

pyspark入门系列 --pyspark.sql.Row函数汇总

from pyspark.sql import SparkSession spark = SparkSession.Builder().master('local').appName('pysparkSqlRow').getOr

2020-07-04 10:00:55

PySpark 之 flatMap

1. pyspark 版本 2.3.0版本 2. 官網 flatMap(f, preservesPartitioning=False)[source] Return a new RDD by first ap

2020-06-29 15:59:59

PySpark RDD 之 reduce

1. pyspark 版本 2.3.0版本 2. 官網 reduce(f)[source] Reduces the elements of this RDD using the specified

2020-06-29 15:59:59

PySpark 之连接变换 union、intersection、subtract、cartesian

1. pyspark 版本 2.3.0版本 2. 解釋 union() 並集 intersection() 交集 subtr

2020-06-29 15:59:59

24小時熱門文章

最新文章

最新評論文章