mac本机pySpark配置并且能在本地远程调用服务器Spark以及文件

mac本机pySpark配置并且能在本地远程调用服务器Spark以及文件

@(Spark)[pycharm|pySpark]


问题描述:

我们需要对一个巨大的原始数据集进行特征工程,打算将数据存在服务器上,并且希望能够使用本地的pycharm编写RDD程序,但是程序运行使用的是服务器的Spark引擎,而程序内的文件读写也是直接使用服务器的文件路径和文件

解决办法:

1、将服务器上的spark文件夹拷到本地:

Alt text

2、为了能在pycharm使用pyspark,需要进行简单配置(也就是让pycharm知道你本地spark在哪):

1、打开pycharm,进入Edit Configuration
Alt text
2、 点开下图中的红圈Environment Variables:
Alt text
3、在下图中添加:

PYTHONPATH=本机spark安装路径/python
SPARK_HOME=本机spark安装路径
Alt text

4、pycharm加载两个包:

1、依次点击perference->Project:XX(工程名)->Project Interpreter,进入Preferences
Alt text
2、在图中右边圈出的齿轮,选择more
3、在选择了与服务器pyspark的python一致的python版本前提下,点击下图圈出的图标,进入interpreter Paths
这里写图片描述
4、在图中左下角加号点击,添加下面两个路径:

/spark安装位置/python/lib/pyspark.zip
/spark安装位置/python/lib/py4j-0.10.4-src.zip
这里写图片描述


至此pycharm的配置就完成了,我们要在本机远程使用服务器spark还需要配置如下:

在终端输入:sudo vim /etc/hosts
在里面添加一行配置: 第一项是服务器的ip地址,中间分隔符是tab
X.X.X.X master
如下图所示:
这里写图片描述

最后用下面代码检测是否配置成功,并且能使用服务器的spark以及文件环境(就相当于完全在服务器上用pyspark)
这里写图片描述

运行不报错就说明成功

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章