1 安裝hadoop
下載hadoop
下載地址
下載之後解壓,然後
下載winutils對應hadoop版本替代hadoop/bin目錄
配置環境:
在路徑…\hadoop-2.8.3\etc\hadoop下修改文件
(1) core-site.xml(配置默認hdfs的訪問端口)
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
(2) hdfs-site.xml(設置複製數爲1,即不進行復制。namenode文件路徑以及datanode數據路徑。)
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/hadoop/data/dfs/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/hadoop/data/dfs/datanode</value>
</property>
</configuration>
(3) 將mapred-site.xml.template 名稱修改爲 mapred-site.xml 後再修改內容(設置mr使用的框架,這裏使用yarn)
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
(4) yarn-site.xml(這裏yarn設置使用了mr混洗)
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>
(5) hadoop-env.cmd
設置JAVA_HOME的值(如果這裏使用了帶空格的Program Files路徑將會報錯!)
移動java修改變量參考
set JAVA_HOME=C:\Java\jdk1.8.0_131
(6) 進入…\hadoop-2.8.3\bin目錄,格式化hdfs
在cmd中運行命令 hdfs namenode -format
(7) 進入…\hadoop-2.8.3\sbin目錄
在cmd中運行命令
start-all.cmd
(8) 在瀏覽器地址欄中輸入:http://localhost:8088查看集羣狀態。
2 安裝spark
設置環境變量,同java,hadoop環境變量設置
安裝後在cmd中輸入scala出現如下提示表示成功
進入spark-2.3.3-bin-hadoop2.7\bin,cmd中輸入spark-shell