在安装spark之前,首先需要安装配置Hadoop,这个就不做详细介绍了,可以参看另一篇:
https://blog.csdn.net/weixin_42001089/article/details/81865101
本文参考:https://blog.csdn.net/weixin_42001089/article/details/82346367
一、查看Hadoop安装情况
1. 打开终端
2. 查看hadoop版本:hadoop version
3. 启动hdfs文件系统:start-dfs.sh
4. 启动yarn资源调度器:start-yarn.sh
5. 使用jps查看是否启动成功:jps
说明:
ResourceManager和NodeManager是yarn资源调度器启动的
DataNode、 NameNode和SecondaryNameNode是hdfs文件系统启动的
所以如果有哪项没有启动成功,就说明对应(yarn或hdfs)的配置文件没有配置成功,需要去看日志手动解决
二者都有相应的web即:
yarn:
hdfs:
二、Scala安装
1. 下载地址:https://www.scala-lang.org/download/2.11.8.html
2. 下载好后解压到:/home/wangsiyao/
sudo tar zxvf '/home/wangsiyao/下载/scala-2.11.8.tgz' -C /home/wangsiyao/
3. 重命名为:scala
4. 配置环境变量
sudo vim /etc/profile
结尾位置添加:
SCALA_HOME=/home/wangsiyao/scala
export SCALA_HOME
$SCALA_HOME/bin
5. 配置文件
source /etc/profile
6. 测试:
scala -version
三、Spark安装:
1. 下载地址:http://spark.apache.org/downloads.html
点击3. Download Spark: ****
点击加粗部分
等待下载
2. 下载好后解压到:/home/wangsiyao/
sudo tar zxvf '/home/wangsiyao/下载/spark-2.3.3-bin-hadoop2.7.tgz' -C /home/wangsiyao/
3. 重命名为:spark
4. 配置环境
sudo vim /etc/profile
添加:
SPARK_HOME=/home/wangsiyao/spark
:$SPARK_HOME/bin
export SPARK_HOME
即:
配置:
source /etc/profile
5. 配置spark-env.sh
进入到spark/conf/:
cd spark/conf/
sudo cp spark-env.sh.template spark-env.sh
sudo vim spark-env.sh
注:具体配置按照个人路径
6. 配置Slave
sudo cp slaves.template slaves
vim slaves
默认就是localhost
7. 启动
前提是之前的伪分布式已经启动
即:
进入spark/sbin/
cd spark/sbin/
启动start-master.sh以及start-slaves.sh
sudo ./start-master.sh
sudo ./start-slaves.sh
在启动start-slaves.sh出现错误!!
root@localhost's password:localhost:permission denied,please try again。
解决办法:https://www.cnblogs.com/hmy-blog/p/6500909.html
重新尝试本步骤:
Spark的web界面:http://127.0.0.1:8099/
8. 启动bin目录下的spark-shell
注意:这里是bin目录,而不是sbin了!!!
进入scala环境:
可以编写代码了!!!
spark-shell的web界面http://127.0.0.1:4040