環境:Ubuntu16.04
在僞分佈式安裝spark之前,首先需要僞分佈式安裝配置Hadoop,這個就不做詳細介紹了,可以參看博主的另一篇博客:
https://blog.csdn.net/lyc0424/article/details/101078489
spark下載地址:http://spark.apache.org/downloads.html
注意:安裝的spark版本需要與之前安裝的hadoop版本對應,由於我之前安裝的hadoop版本是2.6.0,所以此處我下載的安裝包需要對應hadoop2.6.0這個版本,此處我下載的是spark-2.3.4-bin-hadoop2.6.tgz
要安裝舊版本的spark可以點擊下圖中紅圈處去尋找
Scala安裝:
下載地址:https://www.scala-lang.org/download/2.11.8.html
使用管理員權限解壓scala
sudo tar -zxvf scala-2.11.8.tgz -C ~/install
添加以下內容並保存:(注意此處的ubuntu爲當前用戶名,每個人的可能不同,照自己的改。)
export SCALA_HOME=/home/ubuntu/install/scala-2.11.8
export PATH=$PATH:$SCALA_HOME/bin
Spark安裝:
解壓spark(此處我解壓在之前創建的install文件夾下,你也可以解壓在其他地方)
tar -xzvf spark-2.3.4-bin-hadoop2.6.tgz -C ~/install
進入到spark的配置目錄下(注意此處的ubuntu爲當前用戶名,每個人的可能不同,照自己的改。)
cd /home/ubuntu/install/spark-2.3.4-bin-hadoop2.6/conf
修改slaves.template、spark-env.sh.template等文件的文件名
mv spark-env.sh.template spark-env.sh
修改spark-env.sh文件
export JAVA_HOME=/home/ubuntu/install/jdk1.8.0_121
export SCALA_HOME=/home/ubuntu/install/scala-2.11.8
export HADOOP_HOME=/home/ubuntu/install/hadoop-2.6.0
export HADOOP_CONF_DIR=/home/ubuntu/install/hadoop-2.6.0/etc/hadoop
SPARK_MASTER_IP=此處填安裝spark的虛擬機的ip
SPARK_WORKER_MEMORY=1024m
修改slaves文件
默認就是localhost,不需要改
配置環境變量
export SPARK_HOME=/home/ubuntu/install/spark-2.3.4-bin-hadoop2.6
export PATH=$PATH:$SPARK_HOME/bin
使環境配置生效
啓動進程(注意:啓動spark進程前需要先啓動hadoop進程)
cd /home/ubuntu/install/spark-2.3.4-bin-hadoop2.6/sbin
查看進程
仔細觀察可以發現比起hadoop進程啓動時多了Master和Worker