环境:Ubuntu16.04
在伪分布式安装spark之前,首先需要伪分布式安装配置Hadoop,这个就不做详细介绍了,可以参看博主的另一篇博客:
https://blog.csdn.net/lyc0424/article/details/101078489
spark下载地址:http://spark.apache.org/downloads.html
注意:安装的spark版本需要与之前安装的hadoop版本对应,由于我之前安装的hadoop版本是2.6.0,所以此处我下载的安装包需要对应hadoop2.6.0这个版本,此处我下载的是spark-2.3.4-bin-hadoop2.6.tgz
要安装旧版本的spark可以点击下图中红圈处去寻找
Scala安装:
下载地址:https://www.scala-lang.org/download/2.11.8.html
使用管理员权限解压scala
sudo tar -zxvf scala-2.11.8.tgz -C ~/install
添加以下内容并保存:(注意此处的ubuntu为当前用户名,每个人的可能不同,照自己的改。)
export SCALA_HOME=/home/ubuntu/install/scala-2.11.8
export PATH=$PATH:$SCALA_HOME/bin
Spark安装:
解压spark(此处我解压在之前创建的install文件夹下,你也可以解压在其他地方)
tar -xzvf spark-2.3.4-bin-hadoop2.6.tgz -C ~/install
进入到spark的配置目录下(注意此处的ubuntu为当前用户名,每个人的可能不同,照自己的改。)
cd /home/ubuntu/install/spark-2.3.4-bin-hadoop2.6/conf
修改slaves.template、spark-env.sh.template等文件的文件名
mv spark-env.sh.template spark-env.sh
修改spark-env.sh文件
export JAVA_HOME=/home/ubuntu/install/jdk1.8.0_121
export SCALA_HOME=/home/ubuntu/install/scala-2.11.8
export HADOOP_HOME=/home/ubuntu/install/hadoop-2.6.0
export HADOOP_CONF_DIR=/home/ubuntu/install/hadoop-2.6.0/etc/hadoop
SPARK_MASTER_IP=此处填安装spark的虚拟机的ip
SPARK_WORKER_MEMORY=1024m
修改slaves文件
默认就是localhost,不需要改
配置环境变量
export SPARK_HOME=/home/ubuntu/install/spark-2.3.4-bin-hadoop2.6
export PATH=$PATH:$SPARK_HOME/bin
使环境配置生效
启动进程(注意:启动spark进程前需要先启动hadoop进程)
cd /home/ubuntu/install/spark-2.3.4-bin-hadoop2.6/sbin
查看进程
仔细观察可以发现比起hadoop进程启动时多了Master和Worker