spark-2.1.1 源码编译
一. 下载必要的组件
a) 下载spark源码
(当前最新的稳定版是2.1.1,直接git源码)
地址:git clone https://github.com/apache/spark.git
b) 下载maven
地址: http://apache.fayea.com/maven/maven-3/3.3.9/binaries/apache-maven-3.3.9-bin.tar.gz(下载最新版即可,本文中用的是3.3.9)
c) 下载scala
地址: http://downloads.lightbend.com/scala/2.12.1/scala-2.12.1.tgz(下载最新版即可,本文中用的是2.12.1)
d) 下载jdk
地址:这个比较容易找,大家自己去oracle官网找着,jdk1.6 及以上(本文用的是1.8.0_91)
二. 设置环境变量
sudo vi /etc/profile
进入vi编辑器后,参考下面的内容设置环境变量:(软件解压保存目录最好放在home下我这里示例随意放置的)
export JAVA_HOME=/root/projects/opensource/jdk1.8.0_91
export JAVA_BIN=/root/projects/opensource/jdk1.8.0_91/bin
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export JAVA_HOME JAVA_BIN PATH CLASSPATH
M2_HOME=/root/projects/opensource/apache-maven-3.3.9
export M2_HOME
PATH=$PATH:$M2_HOME/bin
export PATH
export ANT_HOME=/root/projects/opensource/apache-ant-1.9.7
export SCALA_HOME=/root/projects/opensource/scala-2.12.1
export PATH=$PATH:$SCALA_HOME/bin
export SPARK_HOME=/root/projects/opensource/spark-src
验证maven,输入mvn -version,正常应该反馈以下类似信息:
三. 用maven安装spark(mvn编译过程中有些文件需要翻墙,翻墙软件可用蓝灯或ShadowsocksR这些)
1. 解压软件包 tar -zxvf spark-2.1.1.tgz -C /opt/modules/bigdata/spark 即 $SPARK_HOME=/opt/modules/bigdata/spark/spark-2.1.1
2. cd $SPARK_HOME
3.防止maven内溢出:export MAVEN_OPTS="-Xmx2g -XX:ReservedCodeCacheSize=512m"
4.执行maven安装./build/mvn -Pyarn -Phadoop-2.7 -Dhadoop.version=2.7.1 -Phive -Phive-thriftserver -Pyarn -DskipTests clean package
打包:./dev/make-distribution.sh --name custom-spark --tgz -Psparkr -Phadoop-2.7
-Dhadoop.version=2.7.1
-Phive -Phive-thriftserver -Pmesos -Pyarn