1.安裝包下載
scala-2.10.5.tgz
spark-1.3.0-bin-hadoop2.4
2.安裝Scala(Master節點)
2.1 解壓文件
tar -zxvf scala-2.10.5.tgz
2.2 配置環境變量
#vi/etc/profile
#SCALA VARIABLES START
export SCALA_HOME=/home/was/scala-2.10.5
export PATH=$PATH:$SCALA_HOME/bin
#SCALA VARIABLES END
$ source /etc/profile
$ scala -version
Scala code runner version 2.10.5 -- Copyright 2002-2013, LAMP/EPFL
2.3驗證Scala
$ scala
Welcome to Scala version 2.10.5 (Java HotSpot(TM) 64-Bit Server VM, Java 1.7.0_51).
Type in expressions to have them evaluated.
Type :help for more information.
scala> 9*9
res0: Int = 81
3. 安裝Spark
Master、Slave1、Slave2 這三臺機器上均需要安裝 Spark。
首先在 Master 上安裝 Spark,具體步驟如下
第一步:把 Master 上的 Spark 解壓:我們直接解壓到當前目錄下:
[root@Master was]#tar -zxvf spark-1.3.0-bin-hadoop2.4.tar
第二步:配置環境變量
進入配置文件
使用 vim 打開 spark-env.sh:
在配置文件中加入“SPARK_HOME”並把 spark 的 bin 目錄加到 PATH 中:
配置後保存退出,然後使配置生效:
第三步:配置 Spark
進入 Spark 的 conf 目錄:
把 spark-env.sh.template 拷貝到 spark-env.sh:
使用 vim 打開 spark-env.sh:
在配置文件中添加如下配置信息:
其中:
JAVA_HOME:指定的是 Java 的安裝目錄;
SCALA_HOME:指定的是 Scala 的安裝目錄;
SPARK_MASTER_IP:指定的是 Spark 集羣的 Master 節點的 IP 地址;
SPARK_WORKER_MEMOERY:指定的 Worker 節點能夠最大分配給 Excutors 的內存大小,
因爲我們的三臺機器配置都是 2g,爲了最充分的使用內存,這裏設置爲了 2g;
HADOOP_CONF_DIR:指定的是我們原來的 Hadoop 集羣的配置文件的目錄;
保存退出。
接下來配置 Spark 的 conf 下的 slaves 文件,把 Worker 節點都添加進去:
可以看出我們把三臺機器都設置爲了 Worker 節點,也就是我們的主節點即是 Master 又是
Worker 節點。
保存退出。
上述就是 Master 上的 Spark 的安裝。
第四步:Slave1 和 Slave2 採用和 Master 完全一樣的 Spark 安裝配置,在此不再贅述。
第四步啓動spark集羣
在 Hadoop 集羣成功啓動的基礎上,啓動 Spark 集羣需要使用 Spark 的 sbin 目錄下
“start-all.sh”:
讀者必須注意的是此時必須寫成“ ./start-all.sh”來表明是當前目錄下的“ start-all.sh”,
因爲我們在配置 Hadoop 的 bin 目錄中也有一個“start-all.sh”文件!
此時使用 jps 發現我們在主節點正如預期一樣出現了“Master”和“Worker”兩個新進程!
此時的 Slave1 和 Slave2 會出現新的進程“Worker”:
此時,我們可以進入 Spark 集羣的 Web 頁面,訪問“http://Master:8080”: 如下所示:
從頁面上我們可以看到我們有三個 Worker 節點及這三個節點的信息。
此時,我們進入 Spark 的 bin 目錄,使用“spark-shell”控制檯:
此 時 我 們 進 入 了 Spark 的 shell 世 界 , 根 據 輸 出 的 提 示 信 息 , 我 們 可 以 通 過
“http://Master:4040” 從 Web 的角度看一下 SparkUI 的情況,如下圖所示:
至此,我們 的 Spark 集羣搭建成功