一、local本地模式
解壓重命名
cd /export/servers
tar spark-2.2.0-bin-2.6.0-cdh5.14.0.tgz
mv spark-2.2.0-bin-2.6.0-cdh5.14.0 spark
如果有權限問題,可以修改爲root,方便學習時操作,實際中使用運維分配的用戶和權限即可
chown -R root /export/servers/spark
chgrp -R root /export/servers/spark
解壓目錄說明:
bin 可執行腳本
conf 配置文件
data 示例程序使用數據
examples 示例程序
jars 依賴 jar 包
python pythonAPI
R R 語言 API
sbin 集羣管理命令
yarn 整合yarn需要的東西
啓動spark-shell
直接啓動bin目錄下的spark-shell:
./spark-shell
spark-shell說明
1.直接使用./spark-shell
表示使用local 模式啓動,在本機啓動一個SparkSubmit進程
2.還可指定參數 --master,如:
spark-shell --master local[N] 表示在本地模擬N個線程來運行當前任務
spark-shell --master local[*] 表示使用當前機器上所有可用的資源
3.不攜帶參數默認就是
spark-shell --master local[*]
4.後續還可以使用--master指定集羣地址,表示把任務提交到集羣上運行,如
./spark-shell --master spark://node01:7077
5.退出spark-shell
使用 :quit
讀取本地文件
準備數據
vim /root/words.txt
hello me you her
hello you her
hello her
hello
val textFile = sc.textFile("file:///root/words.txt")
val counts = textFile.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _)
counts.collect//收集結果
// Array[(String, Int)] = Array((you,2), (hello,4), (me,1), (her,3))
讀取HDFS文件
準備數據
上傳文件到hdfs
hadoop fs -put /root/words.txt /wordcount/input/words.txt
目錄如果不存在可以創建
hadoop fs -mkdir -p /wordcount/input
結束後可以刪除測試文件夾
hadoop fs -rm -r /wordcount
val textFile = sc.textFile("hdfs://node01:8020/wordcount/input/words.txt")
val counts = textFile.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _)
counts.saveAsTextFile("hdfs://node01:8020/wordcount/output")
二、standalone集羣模式
集羣規劃
node01:master
node02:slave/worker
node03:slave/worker
修改配置並分發
1、修改Spark配置文件
cd /export/servers/spark/conf
mv spark-env.sh.template spark-env.sh
vim spark-env.sh
#配置java環境變量
export JAVA_HOME=/export/servers/jdk1.8
#指定spark Master的IP
export SPARK_MASTER_HOST=node01
#指定spark Master的端口
export SPARK_MASTER_PORT=7077
mv slaves.template slaves
vim slaves
node02
node03
2、配置spark環境變量 (建議不添加,避免和Hadoop的命令衝突)
將spark添加到環境變量,添加以下內容到 /etc/profile
export SPARK_HOME=/export/servers/spark
export PATH=$PATH:$SPARK_HOME/bin
注意:
hadoop/sbin 的目錄和 spark/sbin 可能會有命令衝突:
start-all.sh stop-all.sh
解決方案:
1.把其中一個框架的 sbin 從環境變量中去掉;
2.改名 hadoop/sbin/start-all.sh 改爲: start-all-hadoop.sh
3、通過scp 命令將配置文件分發到其他機器上
scp -r /export/servers/spark node02:/export/servers
scp -r /export/servers/spark node03:/export/servers
scp /etc/profile root@node02:/etc
scp /etc/profile root@node03:/etc
source /etc/profile 刷新配置
4、啓動和停止
- 集羣啓動和停止
在主節點上啓動spark集羣
/export/servers/spark/sbin/start-all.sh
在主節點上停止spark集羣
/export/servers/spark/sbin/stop-all.sh
- 單獨啓動和停止
在 master 安裝節點上啓動和停止 master:
start-master.sh
stop-master.sh
在 Master 所在節點上啓動和停止worker(work指的是slaves 配置文件中的主機名)
start-slaves.sh
stop-slaves.sh
5、查看web界面
正常啓動spark集羣后,查看spark的web界面,查看相關信息。
6、測試
使用集羣模式運行Spark程序讀取HDFS上的文件並執行WordCount
集羣模式啓動spark-shell
/export/servers/spark/bin/spark-shell --master spark://node01:7077
運行程序
sc.textFile("hdfs://node01:8020/wordcount/input/words.txt")
.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _)
.saveAsTextFile("hdfs://node01:8020/wordcount/output2")
SparkContext web UI
注意
集羣模式下程序是在集羣上運行的,不要直接讀取本地文件,應該讀取hdfs上的
因爲程序運行在集羣上,具體在哪個節點上我們運行並不知道,其他節點可能並沒有那個數據文件
三、standalone-HA高可用模式
1、原理
Spark Standalone集羣是Master-Slaves架構的集羣模式,和大部分的Master-Slaves結構集羣一樣,存在着Master單點故障的問題。
如何解決這個單點故障的問題,Spark提供了兩種方案:
1.基於文件系統的單點恢復(Single-Node Recovery with Local File System)--只能用於開發或測試環境。
2.基於zookeeper的Standby Masters(Standby Masters with ZooKeeper)--可以用於生產環境。
2、配置HA
該HA方案使用起來很簡單,首先啓動一個ZooKeeper集羣,然後在不同節點上啓動Master,注意這些節點需要具有相同的zookeeper配置。
●先停止Sprak集羣
/export/servers/spark/sbin/stop-all.sh
●在node01上配置:
vim /export/servers/spark/conf/spark-env.sh
●註釋掉Master配置
#export SPARK_MASTER_HOST=node01
●在spark-env.sh添加SPARK_DAEMON_JAVA_OPTS,內容如下:
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=node01:2181,node02:2181,node03:2181 -Dspark.deploy.zookeeper.dir=/spark" |
參數說明
spark.deploy.recoveryMode:恢復模式
spark.deploy.zookeeper.url:ZooKeeper的Server地址
spark.deploy.zookeeper.dir:保存集羣元數據信息的文件、目錄。包括Worker、Driver、Application信息。
●scp到其他節點
scp /export/servers/spark/conf/spark-env.sh node02:/export/servers/spark/conf/
scp /export/servers/spark/conf/spark-env.sh node03:/export/servers/spark/conf/
3、 啓動zk集羣
zkServer.sh status
zkServer.sh stop
zkServer.sh start
4、啓動Spark集羣
●node01上啓動Spark集羣執行
/export/servers/spark/sbin/start-all.sh
●在node02上再單獨只起個master:
/export/servers/spark/sbin/start-master.sh
注意:
在普通模式下啓動spark集羣
只需要在主節點上執行start-all.sh 就可以了
在高可用模式下啓動spark集羣
先需要在任意一臺主節點上執行start-all.sh
然後在另外一臺主節點上單獨執行start-master.sh
●查看node01和node02
可以觀察到有一臺狀態爲StandBy
5、測試HA
●測試主備切換
1.在node01上使用jps查看master進程id
2.使用kill -9 id號強制結束該進程
3.稍等片刻後刷新node02的web界面發現node02爲Alive
●測試集羣模式提交任務
1.集羣模式啓動spark-shell
/export/servers/spark/bin/spark-shell --master spark://node01:7077,node02:7077
2.運行程序
sc.textFile("hdfs://node01:8020/wordcount/input/words.txt")
.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _)
.saveAsTextFile("hdfs://node01:8020/wordcount/output3")
四、on yarn集羣模式
準備工作
1.安裝啓動Hadoop(需要使用HDFS和YARN,已經ok)
2.安裝單機版Spark(已經ok)
注意:不需要集羣,因爲把Spark程序提交給YARN運行本質上是把字節碼給YARN集羣上的JVM運行,但是得有一個東西幫我去把任務提交上個YARN,所以需要一個單機版的Spark,裏面的有spark-shell命令,spark-submit命令
3.修改配置:
在spark-env.sh ,添加HADOOP_CONF_DIR配置,指明瞭hadoop的配置文件的位置
vim /export/servers/spark/conf/spark-env.sh
export HADOOP_CONF_DIR=/export/servers/hadoop/etc/hadoop
cluster模式
在企業生產環境中大部分都是cluster部署模式運行Spark應用
Spark On YARN的Cluster模式 指的是Driver程序運行在YARN集羣上
Driver是什麼:
運行應用程序的main()函數並創建SparkContext的進程
spark-shell是一個簡單的用來測試的交互式窗口
spark-submit用來提交打成jar包的任務
/export/servers/spark-2.2.0-bin-2.6.0-cdh5.14.0/bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode cluster \
--driver-memory 1g \
--executor-memory 1g \
--executor-cores 2 \
--queue default \
/export/servers/spark-2.2.0-bin-2.6.0-cdh5.14.0/examples/jars/spark-examples_2.11-2.2.0.jar \
10
client模式[瞭解]
學習測試時使用,開發不用
Spark On YARN的Client模式 指的是Driver程序運行在提交任務的客戶端
/export/servers/spark-2.2.0-bin-2.6.0-cdh5.14.0/bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode client \
--driver-memory 1g \
--executor-memory 1g \
--executor-cores 2 \
--queue default \
/export/servers/spark-2.2.0-bin-2.6.0-cdh5.14.0/examples/jars/spark-examples_2.11-2.2.0.jar \
10
兩種模式的區別
Cluster和Client模式最本質的區別是:Driver程序運行在哪裏!
運行在YARN集羣中就是Cluster模式,
運行在客戶端就是Client模式
還有由本質區別延伸出來的區別
cluster模式:生產環境中使用該模式
1.Driver程序在YARN集羣中
2.應用的運行結果不能在客戶端顯示
3.該模式下Driver運行ApplicattionMaster這個進程中,如果出現問題,yarn會重啓ApplicattionMaster(Driver)
client模式:
1.Driver運行在Client上的SparkSubmit進程中
2.應用程序運行結果會在客戶端顯示
Spark參數詳解
spark-shell
spark-shell是Spark自帶的交互式Shell程序,方便用戶進行交互式編程,用戶可以在該命令行下可以用scala編寫spark程序,適合學習測試時使用!
示例
spark-shell可以攜帶參數
spark-shell --master local[N] 數字N表示在本地模擬N個線程來運行當前任務
spark-shell --master local[*] *表示使用當前機器上所有可用的資源
默認不攜帶參數就是--master local[*]
spark-shell --master spark://node01:7077,node02:7077 表示運行在集羣上
spark-submit
spark-submit命令用來提交jar包給spark集羣/YARN
spark-shell交互式編程確實很方便我們進行學習測試,但是在實際中我們一般是使用IDEA開發Spark應用程序打成jar包交給Spark集羣/YARN去執行。
示例:計算π
cd /export/servers/spark
/export/servers/spark/bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://node01:7077 \
--executor-memory 1g \
--total-executor-cores 2 \
/export/servers/spark/examples/jars/spark-examples_2.11-2.2.0.jar \
10
參數總結
Master參數形式
Master形式 |
解釋 |
local |
本地以一個worker線程運行(例如非並行的情況). |
local[N] |
本地以K worker 線程 (理想情況下, N設置爲你機器的CPU核數). |
local[*] |
本地以本機同樣核數的線程運行. |
spark://HOST:PORT |
連接到指定的Spark standalone cluster master. 端口是你的master集羣配置的端口,缺省值爲7077. |
mesos://HOST:PORT |
連接到指定的Mesos 集羣. Port是你配置的mesos端口, 默認5050. 或者使用ZK,格式爲 mesos://zk://.... |
yarn-client |
以client模式連接到YARN cluster. 集羣的位置基於HADOOP_CONF_DIR 變量找到. |
yarn-cluster |
以cluster模式連接到YARN cluster. 集羣的位置基於HADOOP_CONF_DIR 變量找到. |
其他參數示例
--master spark://node01:7077 指定 Master 的地址
--name "appName" 指定程序運行的名稱
--class 程序的main方法所在的類
--jars xx.jar 程序額外使用的 jar 包
--driver-memory 512m Driver運行所需要的內存, 默認1g
--executor-memory 2g 指定每個 executor 可用內存爲 2g, 默認1g
--executor-cores 1 指定每一個 executor 可用的核數
--total-executor-cores 2 指定整個集羣運行任務使用的 cup 核數爲 2 個
--queue default 指定任務的對列
--deploy-mode 指定運行模式(client/cluster)
注意:
如果 worker 節點的內存不足,那麼在啓動 spark-submit的時候,就不能爲 executor分配超出 worker 可用的內存容量。
如果--executor-cores超過了每個 worker 可用的 cores,任務處於等待狀態。
如果--total-executor-cores即使超過可用的 cores,默認使用所有的。以後當集羣其他的資源釋放之後,就會被該程序所使用。
如果內存或單個 executor 的 cores 不足,啓動 spark-submit 就會報錯,任務處於等待狀態,不能正常執行。