spark安裝之Standalone集羣模式

集羣角色介紹

Spark是基於內存計算的大數據並行計算框架，實際中運行計算任務肯定是使用集羣模式，那麼我們先來學習Spark自帶的standalone集羣模式瞭解一下它的架構及運行機制。

Standalone集羣使用了分佈式計算中的master-slave模型，

master是集羣中含有master進程的節點
slave是集羣中的worker節點含有Executor進程

●Spark架構圖如下(先了解)：

http://spark.apache.org/docs/latest/cluster-overview.html

集羣規劃

node01:master
node02:slave/worker
node03:slave/worker

修改配置並分發

●修改Spark配置文件

cd /export/servers/spark/conf
mv spark-env.sh.template spark-env.sh
vim  spark-env.sh

#配置java環境變量
export JAVA_HOME=/export/servers/jdk1.8
#指定spark Master的IP
export SPARK_MASTER_HOST=node01
#指定spark Master的端口
export SPARK_MASTER_PORT=7077

mv slaves.template slaves
vim  slaves

node02
node03

●配置spark環境變量 (建議不添加，避免和Hadoop的命令衝突)

將spark添加到環境變量,添加以下內容到 /etc/profile

export SPARK_HOME=/export/servers/spark
export PATH=$PATH:$SPARK_HOME/bin

注意:
hadoop/sbin 的目錄和 spark/sbin 可能會有命令衝突：

start-all.sh stop-all.sh

解決方案：
1.把其中一個框架的 sbin 從環境變量中去掉；
2.改名 hadoop/sbin/start-all.sh 改爲: start-all-hadoop.sh

●通過scp 命令將配置文件分發到其他機器上

scp -r /export/servers/spark node02:/export/servers
scp -r /export/servers/spark node03:/export/servers
scp /etc/profile root@node02:/etc
scp /etc/profile root@node03:/etc
source /etc/profile  刷新配置

啓動和停止

●集羣啓動和停止

在主節點上啓動spark集羣

/export/servers/spark/sbin/start-all.sh

在主節點上停止spark集羣

/export/servers/spark/sbin/stop-all.sh

●單獨啓動和停止

在 master 安裝節點上啓動和停止 master：

start-master.sh
stop-master.sh

在 Master 所在節點上啓動和停止worker(work指的是slaves 配置文件中的主機名)

start-slaves.sh
stop-slaves.sh

查看web界面

正常啓動spark集羣后，查看spark的web界面，查看相關信息。
http://node01:8080/

測試

●需求

使用集羣模式運行Spark程序讀取HDFS上的文件並執行WordCount

●集羣模式啓動spark-shell

/export/servers/spark/bin/spark-shell --master spark://node01:7077

●運行程序

sc.textFile("hdfs://node01:8020/wordcount/input/words.txt")
.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _)
.saveAsTextFile("hdfs://node01:8020/wordcount/output2")

●SparkContext web UI

http://node01:4040/jobs/

●注意
集羣模式下程序是在集羣上運行的，不要直接讀取本地文件，應該讀取hdfs上的
因爲程序運行在集羣上，具體在哪個節點上我們運行並不知道，其他節點可能並沒有那個數據文件

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

spark安裝之Standalone集羣模式

集羣角色介紹

●Spark架構圖如下(先了解)：

集羣規劃

修改配置並分發

●修改Spark配置文件

●配置spark環境變量 (建議不添加，避免和Hadoop的命令衝突)

●通過scp 命令將配置文件分發到其他機器上

啓動和停止

●集羣啓動和停止

●單獨啓動和停止

查看web界面

測試

●需求

●集羣模式啓動spark-shell

●運行程序

●SparkContext web UI

還沒找到大數據工作的同學趕緊看看這個帖子!!!

SparkCore之RDDAPI編程

kafka集羣基本操作

hadoop配置HA詳細教程

kafka必背的知識點

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結