Jdk安裝
建議安裝jdk11
教程:https://blog.csdn.net/weixin_40928253/article/details/83590136
提示:安裝jdk時建議安裝在不帶空格的路徑
Hadoop配置
1.下載https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.2.2/hadoop-3.2.2.tar.gz 把文件夾裏的hadoop-3.2.2拷貝到合適的位置(我是放到d:\programs\hadoop-3.2.2)
2.修改hadoop-3.2.2\etc\hadoop\httpfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.http-address</name>
<value>localhost:50070</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/E:/job/hadoop/hadoop-3.2.2/data/dfs/namenode</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/E:/job/hadoop/hadoop-3.2.2/data/dfs/datanode</value>
</property>
</configuration>
將以上內容替換掉原文件的內容,並修改的:dfs.namenode.name.dir 和 dfs.namenode.name.dir節點對應的value修改爲你自己的路徑(如不存在就修改)
3.配置HADOOP_HOME環境變量
打開系統環境變量-新增HADOOP_HOME,如圖:
注意:值應該修改爲你自己的地址
在path變量裏面新增:%HADOOP_HOME%\bin
4.修改hadoop-3.2.2\etc\hadoop\hadoop-env.cmd的java_home地址
set JAVA_HOME=你的java_home地址
5.修改hadoop-3.2.2\etc\hadoop\core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
Spark配置
下載spark https://spark.apache.org/downloads.html ,
然後放到你想放的位置,直接雙擊:spark-3.1.2-bin-hadoop3.2\bin裏的pyspark.cmd 應該會出現如下界面,說明spark可用了: