mac本機pySpark配置並且能在本地遠程調用服務器Spark以及文件
@(Spark)[pycharm|pySpark]
問題描述:
我們需要對一個巨大的原始數據集進行特徵工程,打算將數據存在服務器上,並且希望能夠使用本地的pycharm編寫RDD程序,但是程序運行使用的是服務器的Spark引擎,而程序內的文件讀寫也是直接使用服務器的文件路徑和文件
解決辦法:
1、將服務器上的spark文件夾拷到本地:
2、爲了能在pycharm使用pyspark,需要進行簡單配置(也就是讓pycharm知道你本地spark在哪):
1、打開pycharm,進入Edit Configuration
2、 點開下圖中的紅圈Environment Variables:
3、在下圖中添加:
PYTHONPATH=本機spark安裝路徑/python
SPARK_HOME=本機spark安裝路徑
4、pycharm加載兩個包:
1、依次點擊perference->Project:XX(工程名)->Project Interpreter
,進入Preferences
2、在圖中右邊圈出的齒輪,選擇more
3、在選擇了與服務器pyspark的python一致的python版本前提下,點擊下圖圈出的圖標,進入interpreter Paths
4、在圖中左下角加號點擊,添加下面兩個路徑:
/spark安裝位置/python/lib/pyspark.zip
/spark安裝位置/python/lib/py4j-0.10.4-src.zip
至此pycharm的配置就完成了,我們要在本機遠程使用服務器spark還需要配置如下:
在終端輸入:sudo vim /etc/hosts
在裏面添加一行配置: 第一項是服務器的ip地址,中間分隔符是tab
X.X.X.X master
如下圖所示:
最後用下面代碼檢測是否配置成功,並且能使用服務器的spark以及文件環境(就相當於完全在服務器上用pyspark)
運行不報錯就說明成功