点赞、关注再看,养成良好习惯
Life is short, U need Python
初学Python,快来点我吧
由于大部分学生用的都是windows系统,而且博主也是windows系统,所以想在win10上安装Spark学习大数据分析,于是开始搜索相关的文章,通过亲自挖坑Spark学习发现大多博文都比较混乱(但是自己却学会了相关很多知识),结合实际情况博主认为大家有一下四类需求(因为博主比较熟悉Python,所以只分析Python语言版,至于Scala语言版可以查询相关文献资料):
(1)Win10下安装Spark(Python+Local版+非虚拟机版):Local版即单机版,也就是说用户无需集群版(事实上,仅仅做一下大数据分析初学者最适合);环境准备如下:
- Anaconda3
- jdk-8u121-windows-x64.exe
- spark-2.4.5-bin-hadoop2.7
- winutils.exe (注意:与spark-2.4.5-bin-hadoop2.7中hadoop版本一致性)
(2)Win10下安装Spark(Python+非Local版+非虚拟机版):非Local版即集群版,这时需要Hadoop;环境准备如下:
- Anaconda3
- jdk-8u121-windows-x64.exe
- hadoop-2.7.7.tar.gz
- spark-2.4.5-bin-hadoop2.7
- scala-2.11.12.msi(注意:与spark版本的一致性)
- winutils.exe (注意:与spark-2.4.5-bin-hadoop2.7中hadoop版本一致性)
(3)Win10下安装Spark(Python+Local版+虚拟机版+Linux系统):通过在win10中安装VirtualBox虚拟机软件,然后在虚拟机软件上安装Linux系统虚拟机(Ubuntu);环境准备如下:
- Anaconda3
- VirtualBox
- jdk-8u121-windows-x64.exe
- spark-2.4.5-bin-hadoop2.7
- winutils.exe (注意:与spark-2.4.5-bin-hadoop2.7中hadoop版本一致性)
(4)Win10下安装Spark(Python+非Local版+虚拟机版+Linux系统):非Local版即集群版,这时需要Hadoop;环境准备如下:
- Anaconda3
- VirtualBox
- jdk-8u121-windows-x64.exe
- hadoop-2.7.7.tar.gz
- spark-2.4.5-bin-hadoop2.7
- scala-2.11.12.msi(注意:与spark版本的一致性)
- winutils.exe (注意:与spark-2.4.5-bin-hadoop2.7中hadoop版本一致性)
一、安装Anaconda3
二、安装JDK
(1)网盘下载地址:
- 链接:https://pan.baidu.com/s/1tpwycDS5UDnsMxyid3qkGg
- 提取码:cetu
- 温馨提示:JDK版本为jdk-8,高版本貌似会报错(也可以从其他网站下载)
(2)安装JDK(点击安装即可)
- 提示:博主安装路径为C:\jdk(以下配置环境变量以此为主)
三、安装Spark(解压Spark)
(1)官网下载地址:http://spark.apache.org/downloads.html
(2)安装Spark(解压Spark)
- 把下载的Spark压缩包解压到想保存的目录,注意路径中不要有空格:比如D:\spark
四、配置环境变量(直接上图)
(1)设置环境变量
-
变量名:JAVA_HOME,变量值:C:\jdk
-
变量名:SPARK_HOME,变量值:D:\spark
-
变量名:HADOOP_HOME,变量值:C:\winutils
(2)修改(增加)PATH环境变量路径
- %SPARK_HOME%\bin
- %JAVA_HOME%\bin
五、下载winutils.exe修改权限
(1)网盘下载地址:
- 链接:https://pan.baidu.com/s/1vSVhZoy1Ik5SCd6BRB8reQ
- 提取码:ihea
- 温馨提示:winutils.exe版本要与spark-2.4.5-bin-hadoop2.7中hadoop版本一致性
(2)安装winutils.exe
- 在C盘建立winutils文件夹,在文件夹下建立bin文件夹,然后把上述下载软件放在bin文件夹下
(3)授权:
- 在管理员身份cmd命令,然后切换到C:\winutils\bin,接着输入:
winutils.exe chmod 777 \tmp\hive
- 或者在cmd提示符后直接输入C:\winutils\bin\winutils.exe chmod 777 \tmp\hive
- 管理员身份进入cmd:开始菜单搜索中输入cmd,在上方出现的cmd上右键点击选择以管理员身份运行
六、修改INFO
- 也可以不修改,但每次运行时会给出一大堆信息,影响结果的直观性
- 找到spark中的conf文件夹并打开,找到log4j.properties.template文件,复制一份修改文件名为log4j.properties,并写字板打开修改INFO为ERROR(或WARN)
七、检验pyspark是否安装成功
(1)命令行窗口
(2)IDE(Jupyter Notebook)窗口
- 原因:没有安装pyspark模块!
- 处理:最简单方式就是把安装的D:\Spark\python路径下的pyspark文件夹复制粘贴到安装的Anaconda3下的lib下的site-packages下面(即D:\Anaconda3\Lib\site-packages)
- 写作不易,切勿白剽
- 博友们的点赞和关注就是对博主坚持写作的最大鼓励
- 持续更新,未完待续…
下一篇:Win10下安装Spark(Python+非Local版+非虚拟机版)