Win10下安装Spark（Python+Local版+非虚拟机版）

原創

2020-03-27 22:53

点赞、关注再看，养成良好习惯
Life is short, U need Python
初学Python，快来点我吧

由于大部分学生用的都是windows系统，而且博主也是windows系统，所以想在win10上安装Spark学习大数据分析，于是开始搜索相关的文章，通过亲自挖坑Spark学习发现大多博文都比较混乱（但是自己却学会了相关很多知识），结合实际情况博主认为大家有一下四类需求（因为博主比较熟悉Python，所以只分析Python语言版，至于Scala语言版可以查询相关文献资料）：
（1）Win10下安装Spark（Python+Local版+非虚拟机版）：Local版即单机版，也就是说用户无需集群版（事实上，仅仅做一下大数据分析初学者最适合）；环境准备如下：

Anaconda3
jdk-8u121-windows-x64.exe
spark-2.4.5-bin-hadoop2.7
winutils.exe （注意：与spark-2.4.5-bin-hadoop2.7中hadoop版本一致性）

（2）Win10下安装Spark（Python+非Local版+非虚拟机版）：非Local版即集群版，这时需要Hadoop；环境准备如下：

Anaconda3
jdk-8u121-windows-x64.exe
hadoop-2.7.7.tar.gz
spark-2.4.5-bin-hadoop2.7
scala-2.11.12.msi（注意：与spark版本的一致性）
winutils.exe （注意：与spark-2.4.5-bin-hadoop2.7中hadoop版本一致性）

（3）Win10下安装Spark（Python+Local版+虚拟机版+Linux系统）：通过在win10中安装VirtualBox虚拟机软件，然后在虚拟机软件上安装Linux系统虚拟机（Ubuntu）；环境准备如下：

Anaconda3
VirtualBox
jdk-8u121-windows-x64.exe
spark-2.4.5-bin-hadoop2.7
winutils.exe （注意：与spark-2.4.5-bin-hadoop2.7中hadoop版本一致性）

（4）Win10下安装Spark（Python+非Local版+虚拟机版+Linux系统）：非Local版即集群版，这时需要Hadoop；环境准备如下：

Anaconda3
VirtualBox
jdk-8u121-windows-x64.exe
hadoop-2.7.7.tar.gz
spark-2.4.5-bin-hadoop2.7
scala-2.11.12.msi（注意：与spark版本的一致性）
winutils.exe （注意：与spark-2.4.5-bin-hadoop2.7中hadoop版本一致性）

一、安装Anaconda3

参见：https://blog.csdn.net/qq_33499889/article/details/104378021

二、安装JDK

（1）网盘下载地址：

链接：https://pan.baidu.com/s/1tpwycDS5UDnsMxyid3qkGg
提取码：cetu
温馨提示：JDK版本为jdk-8，高版本貌似会报错（也可以从其他网站下载）

（2）安装JDK（点击安装即可）

提示：博主安装路径为C:\jdk（以下配置环境变量以此为主）

三、安装Spark（解压Spark）

（1）官网下载地址：http://spark.apache.org/downloads.html

（2）安装Spark（解压Spark）

把下载的Spark压缩包解压到想保存的目录，注意路径中不要有空格：比如D:\spark

四、配置环境变量（直接上图）

（1）设置环境变量

变量名：JAVA_HOME，变量值：C:\jdk
变量名：SPARK_HOME，变量值：D:\spark
变量名：HADOOP_HOME，变量值：C:\winutils

（2）修改（增加）PATH环境变量路径

%SPARK_HOME%\bin
%JAVA_HOME%\bin

五、下载winutils.exe修改权限

（1）网盘下载地址：

链接：https://pan.baidu.com/s/1vSVhZoy1Ik5SCd6BRB8reQ
提取码：ihea
温馨提示：winutils.exe版本要与spark-2.4.5-bin-hadoop2.7中hadoop版本一致性

（2）安装winutils.exe

在C盘建立winutils文件夹，在文件夹下建立bin文件夹，然后把上述下载软件放在bin文件夹下

（3）授权：

在管理员身份cmd命令，然后切换到C:\winutils\bin，接着输入：

winutils.exe chmod 777 \tmp\hive

或者在cmd提示符后直接输入C:\winutils\bin\winutils.exe chmod 777 \tmp\hive
管理员身份进入cmd：开始菜单搜索中输入cmd，在上方出现的cmd上右键点击选择以管理员身份运行

六、修改INFO

也可以不修改，但每次运行时会给出一大堆信息，影响结果的直观性
找到spark中的conf文件夹并打开，找到log4j.properties.template文件，复制一份修改文件名为log4j.properties，并写字板打开修改INFO为ERROR（或WARN）

七、检验pyspark是否安装成功

（1）命令行窗口

（2）IDE（Jupyter Notebook）窗口

原因：没有安装pyspark模块！
处理：最简单方式就是把安装的D:\Spark\python路径下的pyspark文件夹复制粘贴到安装的Anaconda3下的lib下的site-packages下面（即D:\Anaconda3\Lib\site-packages）

写作不易，切勿白剽

博友们的点赞和关注就是对博主坚持写作的最大鼓励

持续更新，未完待续…

下一篇：Win10下安装Spark（Python+非Local版+非虚拟机版）

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

24小時熱門文章

最新文章

最新評論文章