mac本機pySpark配置並且能在本地遠程調用服務器Spark以及文件

mac本機pySpark配置並且能在本地遠程調用服務器Spark以及文件

@(Spark)[pycharm|pySpark]


問題描述:

我們需要對一個巨大的原始數據集進行特徵工程,打算將數據存在服務器上,並且希望能夠使用本地的pycharm編寫RDD程序,但是程序運行使用的是服務器的Spark引擎,而程序內的文件讀寫也是直接使用服務器的文件路徑和文件

解決辦法:

1、將服務器上的spark文件夾拷到本地:

Alt text

2、爲了能在pycharm使用pyspark,需要進行簡單配置(也就是讓pycharm知道你本地spark在哪):

1、打開pycharm,進入Edit Configuration
Alt text
2、 點開下圖中的紅圈Environment Variables:
Alt text
3、在下圖中添加:

PYTHONPATH=本機spark安裝路徑/python
SPARK_HOME=本機spark安裝路徑
Alt text

4、pycharm加載兩個包:

1、依次點擊perference->Project:XX(工程名)->Project Interpreter,進入Preferences
Alt text
2、在圖中右邊圈出的齒輪,選擇more
3、在選擇了與服務器pyspark的python一致的python版本前提下,點擊下圖圈出的圖標,進入interpreter Paths
這裏寫圖片描述
4、在圖中左下角加號點擊,添加下面兩個路徑:

/spark安裝位置/python/lib/pyspark.zip
/spark安裝位置/python/lib/py4j-0.10.4-src.zip
這裏寫圖片描述


至此pycharm的配置就完成了,我們要在本機遠程使用服務器spark還需要配置如下:

在終端輸入:sudo vim /etc/hosts
在裏面添加一行配置: 第一項是服務器的ip地址,中間分隔符是tab
X.X.X.X master
如下圖所示:
這裏寫圖片描述

最後用下面代碼檢測是否配置成功,並且能使用服務器的spark以及文件環境(就相當於完全在服務器上用pyspark)
這裏寫圖片描述

運行不報錯就說明成功

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章