環境準備:
虛擬機:ubuntu 16.04 LTS
已經搭建好hadoop集羣的兩臺主機:
master:192.168.184.158
slave1:192.168.184.169
由於電腦性能問題,將master與slave1主機共同作爲節點進行配置,即master也作爲datanode(實際應用中不建議,這裏是爲了模擬)。
1.安裝scala
下載地址爲:http://www.scala-lang.org/download/
先在master上安裝,路徑爲:/home/hadoop/software/
tar -xvf scala-2.11.8.tgz
mv scala-2.11.8 scala
將/home/hadoop/software/scala/bin目錄加入環境變量,生效後執行
scala-version
會出現以下信息:
Scala code runner version 2.11.8-- Copyright 2002-2016,LAMP/EPFL
分發scala文件目錄到slave節點,
scp -r /home/hadoop/software/scala hadoop@slave1:/home/hadoop/software/
同樣配置環境變量。
2. 安裝spark
下載spark,http://d3kbcqa49mib13.cloudfront.net/spark-1.2.0-bin-hadoop2.4.tgz
在/home/hadoop/software/解壓並重命名爲spark
在master主機配置spark:
cd /home/hadoop/software/spark/conf
cp spark-env.sh.templatespark-env.sh
在spark-env.sh最後加入如下內容:
###jdk安裝目錄
exportJAVA_HOME=/home/hadoop/software/jdk1.6.0_31
###scala安裝目錄
export SCALA_HOME=/home/hadoop/software/scala
###spark集羣的master節點的ip
export SPARK_MASTER_IP=192.168.184.158
###指定的worker節點能夠最大分配給Excutors的內存大小
export SPARK_WORKER_MEMORY=2g
###hadoop集羣的配置文件目錄
exportHADOOP_CONF_DIR=/home/hadoop/software/hadoop/etc/hadoop
新建slaves文件
加入集羣節點,節點應和hadoop下的節點一致:
master
slave1
master配置完成,將/home/hadoop/software/spark/目錄分發至其他slave節點:
scp -r/home/hadoop/software/spark hadoop@slave1: /home/hadoop/software/
3. 啓動spark集羣
先啓動hadoop hdfs
start-dfs.sh
啓動完畢後
cd /home/hadoop/software/spark/sbin
執行
./start-all.sh
訪問:http://192.168.184.158:8080/如下即執行成功: