使用anaconda虚拟python环境使用pyspark的一种方式

原創

JRighte

2020-05-25 05:16

大数据学习之pyspark环境搭建。

安装anaconda、配置好虚拟环境之后，可以编辑家目录下.bashrc文件，

我的用户名是bdbp，虚拟环境名称也是bdbp

编辑.bashrc添加以下内容

export PYSPARK_PYTHON=/home/bdbp/.conda/envs/bdbp/bin/python
export PYSPARK_DRIVER_PYTHON=/home/bdbp/.conda/envs/bdbp/bin/jupyter
export PYSPARK_DRIVER_PYTHON_OPTS="notebook"

ipython_opts="notebook -pylab inlie"

如图

然后在终端输入pyspark

如图（本机hostname是node2）

打开网页测试（yarn集群版）

from pyspark import SparkConf
from pyspark.sql import SparkSession
import traceback
import os
 
os.environ["PYSPARK_PYTHON"]="/usr/bin/python3"#集群上pyspark的python版本指向python3
appname = "test"#任务名称
master ="spark://XXX.XXX.XX.XX:XXXX" #"spark://host:port"
'''
standalone模式:spark://host:port,Spark会自己负责资源的管理调度
mesos模式:mesos://host:port
yarn模式:由于很多时候我们需要和mapreduce使用同一个集群，所以都采用Yarn来管理资源调度，这也是生产环境大多采用yarn模式的原因。yarn模式又分为yarn cluster模式和yarn client模式：
yarn cluster: 这个就是生产环境常用的模式，所有的资源调度和计算都在集群环境上运行。
yarn client: 这个是说Spark Driver和ApplicationMaster进程均在本机运行，而计算任务在cluster上。
'''
spark_driver_host="XXX.XXX.XX.XX"#本地主机ip
try:
    conf = SparkConf().setAppName(appname).setMaster(master).set("spark.driver.host",spark_driver_host )
    spark=SparkSession.builder.config(conf=conf).getOrCreate()
    sc=spark.sparkContext
    words = sc.parallelize(
        ["scala",
         "java",
         "hadoop",
         "spark",
         "akka",
         "spark vs hadoop",
         "pyspark",
         "pyspark and spark"
         ])
    counts = words.count()
    print("Number of elements in RDD is %i" % counts)
    sc.stop()
    print('计算成功！')
except:
    sc.stop()
    traceback.print_exc()#返回出错信息
    print('连接出错！')

如图，可以设置os.environ["PYSPARK_PYTHON"]更改python环境，所以可以灵活切换python环境

本地单机版

from pyspark import SparkConf
from pyspark.sql import SparkSession
import traceback
 
appname = "test"#任务名称
master ="local"#单机模式设置
'''
local: 所有计算都运行在一个线程当中，没有任何并行计算，通常我们在本机执行一些测试代码，或者练手，就用这种模式。
local[K]: 指定使用几个线程来运行计算，比如local[4]就是运行4个worker线程。通常我们的cpu有几个core，就指定几个线程，最大化利用cpu的计算能力
local[*]: 这种模式直接帮你按照cpu最多cores来设置线程数了。
'''
try:
    conf = SparkConf().setAppName(appname).setMaster(master)#spark资源配置
    spark=SparkSession.builder.config(conf=conf).getOrCreate()
    sc=spark.sparkContext
    words = sc.parallelize(
        ["scala",
         "java",
         "hadoop",
         "spark",
         "akka",
         "spark vs hadoop",
         "pyspark",
         "pyspark and spark"
         ])
    counts = words.count()
    print("Number of elements in RDD is %i" % counts)
    sc.stop()
    print('计算成功！')
except:
    sc.stop()
    traceback.print_exc()#返回出错信息
    print('连接出错！')

如图

最后感谢阳望博主和他的博文，连接在这：https://blog.csdn.net/qq_23860475/article/details/90476197

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

使用anaconda虚拟python环境使用pyspark的一种方式

使用c#强大的表达式树实现对象的深克隆之解决循环引用的问题

free AI online tools All In One

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU启动那些事（12.A）- uSDHC eMMC启动时间(RT1170)

linux安装cuda和cudnn

Mellanox网卡开启SR-IOV

模拟手机设备：使用 Playwright 实现移动端自动化测试

HTML 00 Tutorial

全面系统的AI学习路径，帮助普通人也能玩转AI

从零开始：使用 Playwright 脚本录制实现自动化测试

腾讯面试：什么锁比读写锁性能更高？

ETL 之kettle 8下載

Pyspark ValueError: Cannot run multiple SparkContexts at once 解決之道

八斗十六期系列學習比記--The authenticity of host 'node2 (xxx.xxx.xxx.xxx)' can't be established.

windows 和 Linux 添加環境變量

Vscode python debug過程中Terminal 終端路徑的設置

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結