Jdk安装
建议安装jdk11
教程:https://blog.csdn.net/weixin_40928253/article/details/83590136
提示:安装jdk时建议安装在不带空格的路径
Hadoop配置
1.下载https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.2.2/hadoop-3.2.2.tar.gz 把文件夹里的hadoop-3.2.2拷贝到合适的位置(我是放到d:\programs\hadoop-3.2.2)
2.修改hadoop-3.2.2\etc\hadoop\httpfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.http-address</name>
<value>localhost:50070</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/E:/job/hadoop/hadoop-3.2.2/data/dfs/namenode</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/E:/job/hadoop/hadoop-3.2.2/data/dfs/datanode</value>
</property>
</configuration>
将以上内容替换掉原文件的内容,并修改的:dfs.namenode.name.dir 和 dfs.namenode.name.dir节点对应的value修改为你自己的路径(如不存在就修改)
3.配置HADOOP_HOME环境变量
打开系统环境变量-新增HADOOP_HOME,如图:
注意:值应该修改为你自己的地址
在path变量里面新增:%HADOOP_HOME%\bin
4.修改hadoop-3.2.2\etc\hadoop\hadoop-env.cmd的java_home地址
set JAVA_HOME=你的java_home地址
5.修改hadoop-3.2.2\etc\hadoop\core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
Spark配置
下载spark https://spark.apache.org/downloads.html ,
然后放到你想放的位置,直接双击:spark-3.1.2-bin-hadoop3.2\bin里的pyspark.cmd 应该会出现如下界面,说明spark可用了: