Mac pycharm 導入pyspark

轉載於:點擊打開鏈接

1 前提:已經安裝了pycharm,下載了spark(官網下載,我下的是spark-2.1.1-bin-hadoop2.7.tgz,解壓縮後爲文件夾spark-2.1.1-bin-hadoop2.7,我將文件放在了/Applications/spark/下,這個文件夾裏面有python文件,python文件下還有兩個壓縮包py4j-some-version.zip和pyspark.zip,之後會用到

2 在網上 我搜了很多網頁,但是隻解決了運行環境的問題,使用pyspark時from pyspark import SparkContext,代碼依然劃紅線,運行依然顯示沒有該模塊。

3 不管對不對,在pycharm上的project interpreter上下載py4j,因爲很多博客說pyspark依賴這個模塊。

4 隨便打開一個project,pycharm右上角“run”三角形的左邊有一個run configurition,打開它。

5 設置configurition---Environment--- Environment variables ---點擊“...”,出現框框,點擊+,輸入兩個name,一個是SPARK_HOME,另外一個是PYTHONPATH,設置它們的values,SPARK_HOME的value是安裝文件夾spark-2.1.1-bin-hadoop2.7的絕對路徑,PYTHONPATH的value是該絕對路徑/python,例如我的SPARK_HOME的value是/Applications/spark/spark-2.1.1-bin-hadoop2.7,那麼我的PYTHONPATH的value是/Applications/spark/spark-2.1.1-bin-hadoop2.7/python 。設置好了保存。(注意不管是路徑的哪裏,都不能有空格!!尤其是結尾!!今天下午就因爲一個空格折磨我好久)

6 關鍵的一步,還要去配置其他的。很多網頁上都只有到第5步。在perferences中的project structure中點擊右邊的“add  content root”,添加py4j-some-version.zip和pyspark.zip的路徑(這兩個文件都在Spark中的python文件夾下)

7 完成,from pyspark import SparkContext,紅線消失,運行正常。

發佈了32 篇原創文章 · 獲贊 7 · 訪問量 7萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章