一、local本地模式

解壓重命名

cd /export/servers

tar spark-2.2.0-bin-2.6.0-cdh5.14.0.tgz

mv spark-2.2.0-bin-2.6.0-cdh5.14.0 spark

如果有權限問題，可以修改爲root，方便學習時操作，實際中使用運維分配的用戶和權限即可

chown -R root /export/servers/spark

chgrp -R root /export/servers/spark

解壓目錄說明:
bin 可執行腳本
conf 配置文件
data 示例程序使用數據
examples 示例程序
jars 依賴 jar 包
python pythonAPI
R R 語言 API
sbin 集羣管理命令
yarn 整合yarn需要的東西

啓動spark-shell

直接啓動bin目錄下的spark-shell:

./spark-shell

spark-shell說明

1.直接使用./spark-shell

表示使用local 模式啓動，在本機啓動一個SparkSubmit進程

2.還可指定參數 --master，如：

spark-shell --master local[N] 表示在本地模擬N個線程來運行當前任務

spark-shell --master local[*] 表示使用當前機器上所有可用的資源

3.不攜帶參數默認就是

spark-shell --master local[*]

4.後續還可以使用--master指定集羣地址，表示把任務提交到集羣上運行，如

./spark-shell --master spark://node01:7077

5.退出spark-shell

使用 :quit

讀取本地文件

準備數據

vim /root/words.txt

hello me you her 
hello you her
hello her 
hello

val textFile = sc.textFile("file:///root/words.txt")
val counts = textFile.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _)
counts.collect//收集結果
// Array[(String, Int)] = Array((you,2), (hello,4), (me,1), (her,3))

讀取HDFS文件

準備數據

上傳文件到hdfs

hadoop fs -put /root/words.txt /wordcount/input/words.txt

目錄如果不存在可以創建

hadoop fs -mkdir -p /wordcount/input

結束後可以刪除測試文件夾

hadoop fs -rm -r /wordcount

val textFile = sc.textFile("hdfs://node01:8020/wordcount/input/words.txt")

val counts = textFile.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _)

counts.saveAsTextFile("hdfs://node01:8020/wordcount/output")

二、standalone集羣模式

集羣規劃

node01:master

node02:slave/worker

node03:slave/worker

修改配置並分發

1、修改Spark配置文件

cd /export/servers/spark/conf

mv spark-env.sh.template spark-env.sh

vim spark-env.sh

#配置java環境變量

export JAVA_HOME=/export/servers/jdk1.8

#指定spark Master的IP

export SPARK_MASTER_HOST=node01

#指定spark Master的端口

export SPARK_MASTER_PORT=7077

mv slaves.template slaves

vim slaves

node02

node03

2、配置spark環境變量 (建議不添加，避免和Hadoop的命令衝突)

將spark添加到環境變量,添加以下內容到 /etc/profile

export SPARK_HOME=/export/servers/spark

export PATH=$PATH:$SPARK_HOME/bin

注意:

hadoop/sbin 的目錄和 spark/sbin 可能會有命令衝突：

start-all.sh stop-all.sh

解決方案：

1.把其中一個框架的 sbin 從環境變量中去掉；

2.改名 hadoop/sbin/start-all.sh 改爲: start-all-hadoop.sh

3、通過scp 命令將配置文件分發到其他機器上

scp -r /export/servers/spark node02:/export/servers

scp -r /export/servers/spark node03:/export/servers

scp /etc/profile root@node02:/etc

scp /etc/profile root@node03:/etc

source /etc/profile 刷新配置

4、啓動和停止

集羣啓動和停止

在主節點上啓動spark集羣

/export/servers/spark/sbin/start-all.sh

在主節點上停止spark集羣

/export/servers/spark/sbin/stop-all.sh

單獨啓動和停止

在 master 安裝節點上啓動和停止 master：

start-master.sh

stop-master.sh

在 Master 所在節點上啓動和停止worker(work指的是slaves 配置文件中的主機名)

start-slaves.sh

stop-slaves.sh

5、查看web界面

正常啓動spark集羣后，查看spark的web界面，查看相關信息。

http://node01:8080/

6、測試

使用集羣模式運行Spark程序讀取HDFS上的文件並執行WordCount

集羣模式啓動spark-shell

/export/servers/spark/bin/spark-shell --master spark://node01:7077

運行程序

sc.textFile("hdfs://node01:8020/wordcount/input/words.txt")

.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _)

.saveAsTextFile("hdfs://node01:8020/wordcount/output2")

SparkContext web UI

http://node01:4040/jobs/

注意

集羣模式下程序是在集羣上運行的，不要直接讀取本地文件，應該讀取hdfs上的

因爲程序運行在集羣上，具體在哪個節點上我們運行並不知道，其他節點可能並沒有那個數據文件

三、standalone-HA高可用模式

1、原理

Spark Standalone集羣是Master-Slaves架構的集羣模式，和大部分的Master-Slaves結構集羣一樣，存在着Master單點故障的問題。

如何解決這個單點故障的問題，Spark提供了兩種方案：

1.基於文件系統的單點恢復(Single-Node Recovery with Local File System)--只能用於開發或測試環境。

2.基於zookeeper的Standby Masters(Standby Masters with ZooKeeper)--可以用於生產環境。

2、配置HA

該HA方案使用起來很簡單，首先啓動一個ZooKeeper集羣，然後在不同節點上啓動Master，注意這些節點需要具有相同的zookeeper配置。

●先停止Sprak集羣

/export/servers/spark/sbin/stop-all.sh

●在node01上配置：

vim /export/servers/spark/conf/spark-env.sh

●註釋掉Master配置

#export SPARK_MASTER_HOST=node01

●在spark-env.sh添加SPARK_DAEMON_JAVA_OPTS，內容如下：

export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=node01:2181,node02:2181,node03:2181 -Dspark.deploy.zookeeper.dir=/spark"

參數說明

spark.deploy.recoveryMode：恢復模式

spark.deploy.zookeeper.url：ZooKeeper的Server地址

spark.deploy.zookeeper.dir：保存集羣元數據信息的文件、目錄。包括Worker、Driver、Application信息。

●scp到其他節點

scp /export/servers/spark/conf/spark-env.sh node02:/export/servers/spark/conf/

scp /export/servers/spark/conf/spark-env.sh node03:/export/servers/spark/conf/

3、啓動zk集羣

zkServer.sh status

zkServer.sh stop

zkServer.sh start

4、啓動Spark集羣

●node01上啓動Spark集羣執行

/export/servers/spark/sbin/start-all.sh

●在node02上再單獨只起個master:

/export/servers/spark/sbin/start-master.sh

注意：

在普通模式下啓動spark集羣

只需要在主節點上執行start-all.sh 就可以了

在高可用模式下啓動spark集羣

先需要在任意一臺主節點上執行start-all.sh

然後在另外一臺主節點上單獨執行start-master.sh

●查看node01和node02

http://node01:8080/

http://node02:8080/

可以觀察到有一臺狀態爲StandBy

5、測試HA

●測試主備切換

1.在node01上使用jps查看master進程id

2.使用kill -9 id號強制結束該進程

3.稍等片刻後刷新node02的web界面發現node02爲Alive

●測試集羣模式提交任務

1.集羣模式啓動spark-shell

/export/servers/spark/bin/spark-shell --master spark://node01:7077,node02:7077

2.運行程序

sc.textFile("hdfs://node01:8020/wordcount/input/words.txt")
.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _)
.saveAsTextFile("hdfs://node01:8020/wordcount/output3")

四、on yarn集羣模式

準備工作

1.安裝啓動Hadoop(需要使用HDFS和YARN，已經ok)

2.安裝單機版Spark(已經ok)

注意：不需要集羣，因爲把Spark程序提交給YARN運行本質上是把字節碼給YARN集羣上的JVM運行，但是得有一個東西幫我去把任務提交上個YARN，所以需要一個單機版的Spark，裏面的有spark-shell命令，spark-submit命令

3.修改配置：

在spark-env.sh ，添加HADOOP_CONF_DIR配置，指明瞭hadoop的配置文件的位置

vim /export/servers/spark/conf/spark-env.sh

export HADOOP_CONF_DIR=/export/servers/hadoop/etc/hadoop

cluster模式

在企業生產環境中大部分都是cluster部署模式運行Spark應用

Spark On YARN的Cluster模式指的是Driver程序運行在YARN集羣上

Driver是什麼:

運行應用程序的main()函數並創建SparkContext的進程

spark-shell是一個簡單的用來測試的交互式窗口

spark-submit用來提交打成jar包的任務

/export/servers/spark-2.2.0-bin-2.6.0-cdh5.14.0/bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode cluster \
--driver-memory 1g \
--executor-memory 1g \
--executor-cores 2 \
--queue default \
/export/servers/spark-2.2.0-bin-2.6.0-cdh5.14.0/examples/jars/spark-examples_2.11-2.2.0.jar \
10

client模式[瞭解]

學習測試時使用，開發不用

Spark On YARN的Client模式指的是Driver程序運行在提交任務的客戶端

/export/servers/spark-2.2.0-bin-2.6.0-cdh5.14.0/bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode client \
--driver-memory 1g \
--executor-memory 1g \
--executor-cores 2 \
--queue default \
/export/servers/spark-2.2.0-bin-2.6.0-cdh5.14.0/examples/jars/spark-examples_2.11-2.2.0.jar \
10

兩種模式的區別

Cluster和Client模式最本質的區別是：Driver程序運行在哪裏！

運行在YARN集羣中就是Cluster模式，

運行在客戶端就是Client模式

還有由本質區別延伸出來的區別

cluster模式：生產環境中使用該模式

1.Driver程序在YARN集羣中

2.應用的運行結果不能在客戶端顯示

3.該模式下Driver運行ApplicattionMaster這個進程中，如果出現問題，yarn會重啓ApplicattionMaster(Driver)

client模式：

1.Driver運行在Client上的SparkSubmit進程中

2.應用程序運行結果會在客戶端顯示

Spark參數詳解

spark-shell

spark-shell是Spark自帶的交互式Shell程序，方便用戶進行交互式編程，用戶可以在該命令行下可以用scala編寫spark程序，適合學習測試時使用！

示例

spark-shell可以攜帶參數

spark-shell --master local[N] 數字N表示在本地模擬N個線程來運行當前任務

spark-shell --master local[*] *表示使用當前機器上所有可用的資源

默認不攜帶參數就是--master local[*]

spark-shell --master spark://node01:7077,node02:7077 表示運行在集羣上

spark-submit

spark-submit命令用來提交jar包給spark集羣/YARN

spark-shell交互式編程確實很方便我們進行學習測試，但是在實際中我們一般是使用IDEA開發Spark應用程序打成jar包交給Spark集羣/YARN去執行。

示例：計算π

cd /export/servers/spark

/export/servers/spark/bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://node01:7077  \
--executor-memory 1g \
--total-executor-cores 2 \
/export/servers/spark/examples/jars/spark-examples_2.11-2.2.0.jar \
10

參數總結

Master參數形式

Master形式	解釋
local	本地以一個worker線程運行(例如非並行的情況).
local[N]	本地以K worker 線程 (理想情況下, N設置爲你機器的CPU核數).
local[*]	本地以本機同樣核數的線程運行.
spark://HOST:PORT	連接到指定的Spark standalone cluster master. 端口是你的master集羣配置的端口，缺省值爲7077.
mesos://HOST:PORT	連接到指定的Mesos 集羣. Port是你配置的mesos端口，默認5050. 或者使用ZK,格式爲 mesos://zk://....
yarn-client	以client模式連接到YARN cluster. 集羣的位置基於HADOOP_CONF_DIR 變量找到.
yarn-cluster	以cluster模式連接到YARN cluster. 集羣的位置基於HADOOP_CONF_DIR 變量找到.

其他參數示例

--master spark://node01:7077    指定 Master 的地址

--name "appName"                 指定程序運行的名稱

--class                           程序的main方法所在的類

--jars xx.jar                    程序額外使用的 jar 包

--driver-memory 512m             Driver運行所需要的內存, 默認1g

--executor-memory 2g             指定每個 executor 可用內存爲 2g，默認1g

--executor-cores 1               指定每一個 executor 可用的核數

--total-executor-cores 2         指定整個集羣運行任務使用的 cup 核數爲 2 個

--queue default              指定任務的對列

--deploy-mode                  指定運行模式（client/cluster）

注意：

如果 worker 節點的內存不足，那麼在啓動 spark-submit的時候，就不能爲 executor分配超出 worker 可用的內存容量。

如果--executor-cores超過了每個 worker 可用的 cores，任務處於等待狀態。

如果--total-executor-cores即使超過可用的 cores，默認使用所有的。以後當集羣其他的資源釋放之後，就會被該程序所使用。

如果內存或單個 executor 的 cores 不足，啓動 spark-submit 就會報錯，任務處於等待狀態，不能正常執行。

Spark環境搭建（運行模式）

一、local本地模式

解壓重命名

啓動spark-shell

讀取本地文件

讀取HDFS文件

二、standalone集羣模式

集羣規劃

修改配置並分發

三、standalone-HA高可用模式

1、原理

2、配置HA

3、啓動zk集羣

4、啓動Spark集羣

5、測試HA

四、on yarn集羣模式

準備工作

cluster模式

client模式[瞭解]

兩種模式的區別

Spark參數詳解

spark-shell

spark-submit

2024年DataOps趨勢預測：AI不會取代數據工程師

雲原生週刊：K8s 中的服務和網絡｜ 2024.4.29

[轉帖]cpupower

今天，昨天，近七天，近30天，近90天，js封裝

華爲云云原生FinOps解決方案，釋放雲原生最大價值

使用IDEA開發Spark SQL

kafka自定義分區API

scala 基本介紹與用法（二）

kettle使用詳細介紹

spark常見異常

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

Spark環境搭建（運行模式）

一、local本地模式

解壓重命名

啓動spark-shell

讀取本地文件

讀取HDFS文件

二、standalone集羣模式

集羣規劃

修改配置並分發

三、standalone-HA高可用模式

1、原理

2、配置HA

3、 啓動zk集羣

4、啓動Spark集羣

5、測試HA

四、on yarn集羣模式

準備工作

cluster模式

client模式[瞭解]

兩種模式的區別

Spark參數詳解

spark-shell

spark-submit

3、啓動zk集羣