1 在本機上創建單機版pyspark

1 安裝java

pyspark需要java支持, 首先必須安裝java,  至少安裝java8,或者更高版本, 推薦java8

安裝教程:https://www.runoob.com/java/java-environment-setup.html

記得配置環境變量:java_home

安裝成功如下:

 

 2 下載spark並解壓放在一個新的文件夾下

spark官網:https://archive.apache.org/dist/spark/

一定要下載比較老的版本,作者下載的是spark-2.3.1,參考的是國外一個印度小哥的視頻,所以下載的和他一樣。

j記得配置環境變量:spark_home

解壓出來如下圖:

 

 

3 winutils安裝

windows環境下還需要裝個東西來替換掉spark裏的bin文件纔行
https://github.com/steveloughran/winutils
替換完成後

 

 

 

 4 第一次檢驗

cmd pyspark, 如果找不到就說明spark_home環境變量沒有配置好。打開如下這種是說python的環境沒有激活, 

 

 

好, 那你現在用anaconda prompt打開, 再試試

 

 

這次並沒有說未激活, 但是還是報錯。按說明用的python的版本過高,spark不支持你目前的python, 比如我這裏是python 3.8.8, 版本太高。

想法是降低python版本。

5 創建低python版本的虛擬環境

1 打開anaconda rprompt 

2 先更換鏡像源, 讓後面創建的時候快起來。

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
conda config --set show_channel_urls yes

用戶目錄下創建 .condarc 文件,然後把這個文件的 -default刪除(針對windows),不然後面又要報錯

3 創建虛擬環境
conda create --name pyspark_env python=3.6.9 

創建虛擬環境的名字是pyspark_env, python 版本3.6.9, 也是外國的小哥一樣。

這裏會讓選擇, 記得敲y. 回車。

4 爲這個虛擬環境裝其他包

pip install numpy
pip install pandas
pip install matplotlib
pip install seaborn
pip install numpy
pip install warings
pip install scipy
pip install scikit-learn
pip install requests
pip install notebook
pip install jupyterlab
pip install pyarrow
pip install Py4J -i https://pypi.douban.com/simple
pip install pyspark -i https://pypi.douban.com/simple

都可以加上鏡像源, 或者用已經換源的conda都行,作者習慣pip。

6 進入虛擬環境再進入pyspark

 

成功。搞一天了,已經凌晨,趕緊記下來,。

補充:py4j版本有點高, 更換成下面這個版本。

 

 成功

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章