文章目录
Spark的四种运行模式
首先spark有四种运行模式,目前只接触到了local,standalone ,yarn 三种运行模式。
local模式顾名思义就是运行在 本地,一般用于测试小型的spark应用程序,比较简单,只用在开发工具中安装插件即可,不需要搭建集群。
standalone 和 yarn 属于同级别的,都需要搭建集群,yarn集群在前面的博客已经介绍,这里不做详细介绍,下面是我们standalone 集群的搭建过程。
- local
- standalone
- yarn
- mesos
standalone 集群的搭建
standalone集群的大体框架
standalone集群步骤
1,在node01节点上下载spark安装包
2,解压spark-1.6.3-bin-hadoop2.6.tgz安装包
tar -zxvf spark-1.6.3-bin-hadoop2.6.tgz
3,修改spark配置文件
- 进入conf目录下修改配置文件的名字
把slaves.template文件改名为slaves文件mv slaves.template slaves
- 修改slaves配置文件内容
standalone是主从架构,而slaves配置文件里面放的是从节点的IP,所以将node02,node03,node04放入slaves中。
- 修改spark-env.sh内容
SPARK_MASTER_PORT字段设置主节点的IP
SPARK_MASTER_IP字段设置端口(用来Master与Worker的心跳,资源通信)
SPARK_WORKER_CORES代表每一个worker进程能管理几个核(有几个核的支配权)。
//如果CPU是4核8线程,那么这个核是支持超线程的核。
//如果是普通的核,一个核在一个时刻只能处理一个线程。
//这个配置是根据当前节点的资源情况来配置的,如果节点有8个core,并且支持超线程,此时可以将这个节点看成由16个core组成。
SPARK_WORKER_MEMORY字段代表每个worker可以管理多大内存。
SPARK_WORKER_DIR配置worker路径
SPARK_WORKER_INSTANCES设置每个节点上启动的worker进程数。
4,将配置好的spark安装包发送到各个节点上
scp -r spark-1.6.3 root@node2: ‘pwd’
scp -r spark-1.6.3 root@node3:‘pwd’
scp -r spark-1.6.3 root@node4:‘pwd’
5,将启动命令改名
进入sbin目录下,找到start-all.sh文件(此文件与hadoop的start.sh冲突),将其改为:start-spark.sh
mv start-all.sh start-spark.sh
6,启动spark
start-spark.sh
7,jps查看各个节点开启的进程
node01上启动了一个Master进程
node02上启动了一个Worker进程
node03上启动了一个Worker进程
node04上启动了一个Worker进程
说明启动成功