1 安裝java
pyspark需要java支持, 首先必須安裝java, 至少安裝java8,或者更高版本, 推薦java8
安裝教程:https://www.runoob.com/java/java-environment-setup.html
記得配置環境變量:java_home
安裝成功如下:
2 下載spark並解壓放在一個新的文件夾下
spark官網:https://archive.apache.org/dist/spark/
一定要下載比較老的版本,作者下載的是spark-2.3.1,參考的是國外一個印度小哥的視頻,所以下載的和他一樣。
j記得配置環境變量:spark_home
解壓出來如下圖:
3 winutils安裝
windows環境下還需要裝個東西來替換掉spark裏的bin文件纔行
https://github.com/steveloughran/winutils
替換完成後
4 第一次檢驗
cmd pyspark, 如果找不到就說明spark_home環境變量沒有配置好。打開如下這種是說python的環境沒有激活,
好, 那你現在用anaconda prompt打開, 再試試
這次並沒有說未激活, 但是還是報錯。按說明用的python的版本過高,spark不支持你目前的python, 比如我這裏是python 3.8.8, 版本太高。
想法是降低python版本。
5 創建低python版本的虛擬環境
1 打開anaconda rprompt
2 先更換鏡像源, 讓後面創建的時候快起來。
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
conda config --set show_channel_urls yes
用戶目錄下創建 .condarc 文件,然後把這個文件的 -default刪除(針對windows),不然後面又要報錯
3 創建虛擬環境
conda create --name pyspark_env python=3.6.9
創建虛擬環境的名字是pyspark_env, python 版本3.6.9, 也是外國的小哥一樣。
這裏會讓選擇, 記得敲y. 回車。
4 爲這個虛擬環境裝其他包
pip install numpy
pip install pandas
pip install matplotlib
pip install seaborn
pip install numpy
pip install warings
pip install scipy
pip install scikit-learn
pip install requests
pip install notebook
pip install jupyterlab
pip install pyarrow
pip install Py4J -i https://pypi.douban.com/simple
pip install pyspark -i https://pypi.douban.com/simple
都可以加上鏡像源, 或者用已經換源的conda都行,作者習慣pip。
6 進入虛擬環境再進入pyspark
成功。搞一天了,已經凌晨,趕緊記下來,。
補充:py4j版本有點高, 更換成下面這個版本。
成功