Spark集群搭建

Spark的四种运行模式

首先spark有四种运行模式,目前只接触到了local,standalone ,yarn 三种运行模式。
local模式顾名思义就是运行在 本地,一般用于测试小型的spark应用程序,比较简单,只用在开发工具中安装插件即可,不需要搭建集群。
standalone 和 yarn 属于同级别的,都需要搭建集群,yarn集群在前面的博客已经介绍,这里不做详细介绍,下面是我们standalone 集群的搭建过程。

  1. local
  2. standalone
  3. yarn
  4. mesos

standalone 集群的搭建

standalone集群的大体框架

在这里插入图片描述

standalone集群步骤

1,在node01节点上下载spark安装包

2,解压spark-1.6.3-bin-hadoop2.6.tgz安装包

 tar -zxvf spark-1.6.3-bin-hadoop2.6.tgz

3,修改spark配置文件

  • 进入conf目录下修改配置文件的名字
    把slaves.template文件改名为slaves文件
    mv slaves.template slaves
    
  • 修改slaves配置文件内容
    standalone是主从架构,而slaves配置文件里面放的是从节点的IP,所以将node02,node03,node04放入slaves中。
    在这里插入图片描述
  • 修改spark-env.sh内容
SPARK_MASTER_PORT字段设置主节点的IP
SPARK_MASTER_IP字段设置端口(用来Master与Worker的心跳,资源通信)
SPARK_WORKER_CORES代表每一个worker进程能管理几个核(有几个核的支配权)。
//如果CPU是4核8线程,那么这个核是支持超线程的核。
//如果是普通的核,一个核在一个时刻只能处理一个线程。
//这个配置是根据当前节点的资源情况来配置的,如果节点有8个core,并且支持超线程,此时可以将这个节点看成由16个core组成。
SPARK_WORKER_MEMORY字段代表每个worker可以管理多大内存。
SPARK_WORKER_DIR配置worker路径
SPARK_WORKER_INSTANCES设置每个节点上启动的worker进程数。

4,将配置好的spark安装包发送到各个节点上

 scp -r spark-1.6.3 root@node2: ‘pwd’
 scp -r spark-1.6.3 root@node3:‘pwd’
 scp -r spark-1.6.3 root@node4:‘pwd’

5,将启动命令改名

进入sbin目录下,找到start-all.sh文件(此文件与hadoop的start.sh冲突),将其改为:start-spark.sh

mv start-all.sh start-spark.sh

6,启动spark

start-spark.sh

7,jps查看各个节点开启的进程

node01上启动了一个Master进程
node02上启动了一个Worker进程
node03上启动了一个Worker进程
node04上启动了一个Worker进程

说明启动成功

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章