前面已經安裝好hadoop和yarn:https://blog.csdn.net/qq_16504067/article/details/103401096
- jdk1.8安裝包:
- scala2.11安裝包:
- 官方下載:http://www.scala-lang.org/點擊DownLoad即可下載。
- spark2.3安裝包:
- 官方下載:http://spark.apache.org/downloads.html這裏spark提供了和hadoop綁定的版本,但是由於沒有提供2.8的hadoop綁定版,所以這裏選擇通用版spark-2.3.4-bin-without-hadoop 來進行下載。如下圖:第一個是安裝包。
1.2.解壓
tar -zxvf spark-2.3.4-bin-without-hadoop.tgz -C /opt/soft
1.3.修改配置文件
進入spark-2.3.4-bin-without-hadoop/conf下
mv spark-env.sh.template spark-env.sh
vi spark-env.sh
在spark-env.sh下加入如下配置
# Hadoop 的配置文件目錄
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
# YARN 的配置文件目錄
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
# SPARK 的目錄
export SPARK_HOME=/opt/soft/spark-2.3.4-bin-without-hadoop
# SPARK 執行文件目錄
export PATH=$SPARK_HOME/bin:$PATH
#需要hadoop添加了環境變量HADOOP_HOME才行。
export SPARK_DIST_CLASSPATH=$(hadoop classpath)
hadoop的hdfs和yarn的進程默認都已經啓動成功了。
2.運行SparkPi
進入/opt/soft/spark-2.3.4-bin-without-hadoop/目錄下
./bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster --driver-memory 1G --num-executors 3 --executor-memory 1G --executor-cores 1 ./examples/jars/spark-examples_2.11-2.1.1.jar 100
如果看到控制檯出現這個,說明運行成功。
我們可以根據圖中的tracking URL進入yarn的管理界面查看運行日誌。
http://hadoop1:8088/proxy/application_1498145157994_0002/
運行結果如下:
至此已經完成的Spark on Yarn 的環境搭建,並通過測試SparkPi的運行,說明我們的環境沒有問題了。