mac本机pySpark配置并且能在本地远程调用服务器Spark以及文件
@(Spark)[pycharm|pySpark]
问题描述:
我们需要对一个巨大的原始数据集进行特征工程,打算将数据存在服务器上,并且希望能够使用本地的pycharm编写RDD程序,但是程序运行使用的是服务器的Spark引擎,而程序内的文件读写也是直接使用服务器的文件路径和文件
解决办法:
1、将服务器上的spark文件夹拷到本地:
2、为了能在pycharm使用pyspark,需要进行简单配置(也就是让pycharm知道你本地spark在哪):
1、打开pycharm,进入Edit Configuration
2、 点开下图中的红圈Environment Variables:
3、在下图中添加:
PYTHONPATH=本机spark安装路径/python
SPARK_HOME=本机spark安装路径
4、pycharm加载两个包:
1、依次点击perference->Project:XX(工程名)->Project Interpreter
,进入Preferences
2、在图中右边圈出的齿轮,选择more
3、在选择了与服务器pyspark的python一致的python版本前提下,点击下图圈出的图标,进入interpreter Paths
4、在图中左下角加号点击,添加下面两个路径:
/spark安装位置/python/lib/pyspark.zip
/spark安装位置/python/lib/py4j-0.10.4-src.zip
至此pycharm的配置就完成了,我们要在本机远程使用服务器spark还需要配置如下:
在终端输入:sudo vim /etc/hosts
在里面添加一行配置: 第一项是服务器的ip地址,中间分隔符是tab
X.X.X.X master
如下图所示:
最后用下面代码检测是否配置成功,并且能使用服务器的spark以及文件环境(就相当于完全在服务器上用pyspark)
运行不报错就说明成功