1.首先準備軟件包
下載地址:https://www.apache.org/dyn/closer.lua/spark/spark-2.4.3/spark-2.4.3-bin-hadoop2.7.tgz
2.解壓到對應目錄後,修改配置文件(前提Java已經安裝過了)
解壓的Linux命令:tar -zxvf spark-2.4.3-bin-hadoop2.7.tgz
3.配置spark home環境變量
vi /etc/profile
export SPARK_HOME=/piflow/soft/spark/spark-2.4.3-bin-hadoop2.7
export PATH=$PATH:$SPARK_HOME/bin
4.配置環境變量
進入Spark安裝目錄的conf目錄,配置以下文件。
a.spark-env.sh
conf目錄下沒有此文件,需要複製模版文件spark-env.sh.template更名,命令如下:
cp spark-env.sh.template spark-env.sh
vi spark-env.sh
直接在文件末尾添加,內容示例如下:
export JAVA_HOME=/home/software/soft/jdk1.8.0_11
#export SCALA_HOME=/usr/local/scala/scala-2.11.8
export HADOOP_HOME=/home/software/soft/hadoop-2.7.0
export HADOOP_CONF_DIR=/home/software/soft/hadoop-2.7.0/etc/hadoop
export YARN_CONF_DIR=/home/software/soft/hadoop-2.7.0/etc/hadoop
export SPARK_MASTER_IP=hadoop1
export SPARK_LOCAL_IP=192.168.183.161
export SPARK_WORKER_MEMORY=4g
export SPARK_HOME=/home/software/soft/spark-2.4.3-bin-hadoop2.7
export SPARK_LOCAL_DIRS=/home/software/soft/data/spark
export HADOOP_CONF_DIR=/home/software/soft/hadoop-2.7.0/etc/hadoop 這句比較關鍵,on yarn 的核心
b.spark-defaults.conf
此文件在目錄下也沒有,也需要複製模版文件,更名然後編輯,命令如下:
cp spark-defaults.conf.template spark-defaults.conf
vi spark-defaults.conf
直接在文件末尾添加內容,配置示例如下:
spark.yarn.jars=hdfs://spark01:9000/spark_jars/*
這個jar包需要自己手動傳上去
c.slaves
此文件在conf目錄下也沒有,同樣需要賦值模版文件,更名然後編輯,命令如下:
cp slaves.template slaves
vi slaves
同樣在文件末尾直接添加配置內容即可,配置示例如下:(主機名或ip)
spark1
spark2
上傳jar包
在HDFS上,創建一個目錄,用來存放spark的依賴jar包。此目錄是spark-defaults.conf目錄中配置的目錄名稱,命令如下:
hadoop fs -mkdir /spark_jars
進入spark安裝目錄的jars目錄,執行:
hadoop fs -put ./* /spark_jars
5.主節點上面該配的已經配完,下面是copy子節點的了
主節點上執行:
scp -r /piflow/soft/spark/spark-2.4.3-bin-hadoop2.7 spark@Spark02:/piflow/soft/spark
scp -r /piflow/soft/spark/spark-2.4.3-bin-hadoop2.7 spark@Spark03:/piflow/soft/spark
至此,完成Spark-Yarn的配置。
記得加上這個配置,可避免集羣環境停不下來的問題:
https://blog.csdn.net/Alex_81D/article/details/105092935
6.安裝完成啓動
啓動命令:
sbin/start-all.sh