轉載於:點擊打開鏈接
1 前提:已經安裝了pycharm,下載了spark(官網下載,我下的是spark-2.1.1-bin-hadoop2.7.tgz,解壓縮後爲文件夾spark-2.1.1-bin-hadoop2.7,我將文件放在了/Applications/spark/下,這個文件夾裏面有python文件,python文件下還有兩個壓縮包py4j-some-version.zip和pyspark.zip,之後會用到)
2 在網上 我搜了很多網頁,但是隻解決了運行環境的問題,使用pyspark時from pyspark import SparkContext,代碼依然劃紅線,運行依然顯示沒有該模塊。
3 不管對不對,在pycharm上的project interpreter上下載py4j,因爲很多博客說pyspark依賴這個模塊。
4 隨便打開一個project,pycharm右上角“run”三角形的左邊有一個run configurition,打開它。
5 設置configurition---Environment--- Environment variables ---點擊“...”,出現框框,點擊+,輸入兩個name,一個是SPARK_HOME,另外一個是PYTHONPATH,設置它們的values,SPARK_HOME的value是安裝文件夾spark-2.1.1-bin-hadoop2.7的絕對路徑,PYTHONPATH的value是該絕對路徑/python,例如我的SPARK_HOME的value是/Applications/spark/spark-2.1.1-bin-hadoop2.7,那麼我的PYTHONPATH的value是/Applications/spark/spark-2.1.1-bin-hadoop2.7/python 。設置好了保存。(注意不管是路徑的哪裏,都不能有空格!!尤其是結尾!!今天下午就因爲一個空格折磨我好久)
6 關鍵的一步,還要去配置其他的。很多網頁上都只有到第5步。在perferences中的project structure中點擊右邊的“add content root”,添加py4j-some-version.zip和pyspark.zip的路徑(這兩個文件都在Spark中的python文件夾下)
7 完成,from pyspark import SparkContext,紅線消失,運行正常。