Win10下安装Spark(Python+Local版+非虚拟机版)

点赞、关注再看,养成良好习惯
Life is short, U need Python
初学Python,快来点我吧
在这里插入图片描述


由于大部分学生用的都是windows系统,而且博主也是windows系统,所以想在win10上安装Spark学习大数据分析,于是开始搜索相关的文章,通过亲自挖坑Spark学习发现大多博文都比较混乱(但是自己却学会了相关很多知识),结合实际情况博主认为大家有一下四类需求(因为博主比较熟悉Python,所以只分析Python语言版,至于Scala语言版可以查询相关文献资料):
(1)Win10下安装Spark(Python+Local版+非虚拟机版):Local版即单机版,也就是说用户无需集群版(事实上,仅仅做一下大数据分析初学者最适合);环境准备如下:

  • Anaconda3
  • jdk-8u121-windows-x64.exe
  • spark-2.4.5-bin-hadoop2.7
  • winutils.exe (注意:与spark-2.4.5-bin-hadoop2.7中hadoop版本一致性)

(2)Win10下安装Spark(Python+非Local版+非虚拟机版):非Local版即集群版,这时需要Hadoop;环境准备如下:

  • Anaconda3
  • jdk-8u121-windows-x64.exe
  • hadoop-2.7.7.tar.gz
  • spark-2.4.5-bin-hadoop2.7
  • scala-2.11.12.msi(注意:与spark版本的一致性)
  • winutils.exe (注意:与spark-2.4.5-bin-hadoop2.7中hadoop版本一致性)

(3)Win10下安装Spark(Python+Local版+虚拟机版+Linux系统):通过在win10中安装VirtualBox虚拟机软件,然后在虚拟机软件上安装Linux系统虚拟机(Ubuntu);环境准备如下:

  • Anaconda3
  • VirtualBox
  • jdk-8u121-windows-x64.exe
  • spark-2.4.5-bin-hadoop2.7
  • winutils.exe (注意:与spark-2.4.5-bin-hadoop2.7中hadoop版本一致性)

(4)Win10下安装Spark(Python+非Local版+虚拟机版+Linux系统):非Local版即集群版,这时需要Hadoop;环境准备如下:

  • Anaconda3
  • VirtualBox
  • jdk-8u121-windows-x64.exe
  • hadoop-2.7.7.tar.gz
  • spark-2.4.5-bin-hadoop2.7
  • scala-2.11.12.msi(注意:与spark版本的一致性)
  • winutils.exe (注意:与spark-2.4.5-bin-hadoop2.7中hadoop版本一致性)

一、安装Anaconda3

二、安装JDK

(1)网盘下载地址:
  • 链接:https://pan.baidu.com/s/1tpwycDS5UDnsMxyid3qkGg
  • 提取码:cetu
  • 温馨提示:JDK版本为jdk-8,高版本貌似会报错(也可以从其他网站下载)
(2)安装JDK(点击安装即可)

在这里插入图片描述

  • 提示:博主安装路径为C:\jdk(以下配置环境变量以此为主)

三、安装Spark(解压Spark)

(1)官网下载地址:http://spark.apache.org/downloads.html在这里插入图片描述
(2)安装Spark(解压Spark)
  • 把下载的Spark压缩包解压到想保存的目录,注意路径中不要有空格:比如D:\spark

四、配置环境变量(直接上图)

(1)设置环境变量
  • 变量名:JAVA_HOME,变量值:C:\jdk

    在这里插入图片描述

  • 变量名:SPARK_HOME,变量值:D:\spark

    在这里插入图片描述

  • 变量名:HADOOP_HOME,变量值:C:\winutils

    在这里插入图片描述

(2)修改(增加)PATH环境变量路径
  • %SPARK_HOME%\bin
  • %JAVA_HOME%\bin

    在这里插入图片描述

五、下载winutils.exe修改权限

(1)网盘下载地址:
(2)安装winutils.exe
  • 在C盘建立winutils文件夹,在文件夹下建立bin文件夹,然后把上述下载软件放在bin文件夹下

    在这里插入图片描述
(3)授权:
  • 在管理员身份cmd命令,然后切换到C:\winutils\bin,接着输入:
winutils.exe chmod 777 \tmp\hive

在这里插入图片描述

  • 或者在cmd提示符后直接输入C:\winutils\bin\winutils.exe chmod 777 \tmp\hive
  • 管理员身份进入cmd:开始菜单搜索中输入cmd,在上方出现的cmd上右键点击选择以管理员身份运行
    在这里插入图片描述

六、修改INFO

  • 也可以不修改,但每次运行时会给出一大堆信息,影响结果的直观性
  • 找到spark中的conf文件夹并打开,找到log4j.properties.template文件,复制一份修改文件名为log4j.properties,并写字板打开修改INFO为ERROR(或WARN)

    在这里插入图片描述
    在这里插入图片描述

七、检验pyspark是否安装成功

(1)命令行窗口

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

(2)IDE(Jupyter Notebook)窗口

在这里插入图片描述

  • 原因:没有安装pyspark模块!
  • 处理:最简单方式就是把安装的D:\Spark\python路径下的pyspark文件夹复制粘贴到安装的Anaconda3下的lib下的site-packages下面(即D:\Anaconda3\Lib\site-packages)

    在这里插入图片描述

  • 写作不易,切勿白剽
  • 博友们的点赞关注就是对博主坚持写作的最大鼓励
  • 持续更新,未完待续…

下一篇:Win10下安装Spark(Python+非Local版+非虚拟机版)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章