Spark on Yarn 單機環境搭建

原創

qq_duhai

2020-02-24 17:37

前面已經安裝好hadoop和yarn：https://blog.csdn.net/qq_16504067/article/details/103401096

jdk1.8安裝包：
- 官方下載：http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html選擇linux_x64。
scala2.11安裝包：
- 官方下載：http://www.scala-lang.org/點擊DownLoad即可下載。
spark2.3安裝包：
- 官方下載：http://spark.apache.org/downloads.html這裏spark提供了和hadoop綁定的版本，但是由於沒有提供2.8的hadoop綁定版，所以這裏選擇通用版spark-2.3.4-bin-without-hadoop 來進行下載。如下圖：第一個是安裝包。

1.2.解壓

tar -zxvf spark-2.3.4-bin-without-hadoop.tgz -C /opt/soft

1.3.修改配置文件

進入spark-2.3.4-bin-without-hadoop/conf下

mv spark-env.sh.template spark-env.sh
vi spark-env.sh

在spark-env.sh下加入如下配置

# Hadoop 的配置文件目錄
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
# YARN 的配置文件目錄
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
# SPARK 的目錄
export SPARK_HOME=/opt/soft/spark-2.3.4-bin-without-hadoop
# SPARK 執行文件目錄
export PATH=$SPARK_HOME/bin:$PATH
#需要hadoop添加了環境變量HADOOP_HOME才行。
export SPARK_DIST_CLASSPATH=$(hadoop classpath)

hadoop的hdfs和yarn的進程默認都已經啓動成功了。

2.運行SparkPi

進入/opt/soft/spark-2.3.4-bin-without-hadoop/目錄下

./bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster --driver-memory 1G --num-executors 3 --executor-memory 1G --executor-cores 1  ./examples/jars/spark-examples_2.11-2.1.1.jar 100

如果看到控制檯出現這個，說明運行成功。

我們可以根據圖中的tracking URL進入yarn的管理界面查看運行日誌。

http://hadoop1:8088/proxy/application_1498145157994_0002/

運行結果如下：

至此已經完成的Spark on Yarn 的環境搭建，並通過測試SparkPi的運行，說明我們的環境沒有問題了。

Spark常見問題彙總

https://blog.csdn.net/qq_16504067/article/details/103452234

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Spark on Yarn 單機環境搭建

1.2.解壓

1.3.修改配置文件

2.運行SparkPi

Spark常見問題彙總

https://blog.csdn.net/qq_16504067/article/details/103452234

開啓防火牆下的配置

Clickhouse 內存問題

建立SSH互信

Flink 的廣播變量

Elasticsearch 分頁問題

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結