版本說明
Hadoop:2.6.0-cdh5.15.1
JDK:1.8.0
Spark:2.4.4
Maven:Spark源碼內置,路徑:spark-2.4.4/build/mvn
以上軟件都需要提前設置好環境變量,但是Maven, Scala和Zinc在編譯的時候會自動下載對應版本到build/目錄下,所以不需要提前安裝。
修改pom.xml
spark-2.4.4/pom.xml
-
增加cloudera的repository
<repository> <id>cloudera</id> <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url> </repository>
-
關閉zinc
<useZincServer>false</useZincServer>
Spark默認版本說明
從spark-2.4.4/pom.xml
文件中我們可以看到,默認使用的是Hadoop2.6.5,這個小版本和我們當前的2.6.0-cdh5.15.1還是存在差異的,所以需要用-Dhadoop.version=2.6.0-cdh5.15.1
指定版本號
執行命令:./build/mvn -Pyarn -Phive -Phive-thriftserver -Dhadoop.version=2.6.0-cdh5.15.1 -DskipTests clean package
說明:使用Yarn、Hive和ThriftServer,重設Hadoop版本爲2.6.0-cdh5.15.1
第一次執行會比較慢,大概要1~2個小時。
還有另一種方式可以生成一個可以執行的包,執行命令:./dev/make-distribution.sh --name 2.6.0-cdh5.15.1 --tgz -Pyarn -Phive -Phive-thriftserver -Dhadoop.version=2.6.0-cdh5.15.1
,其實就是對上面的命令進行了一個封裝,推薦使用這種方式。
編譯完成後,會生成一個名爲spark-2.4.4-bin-2.6.0-cdh5.15.1.tgz
的包,解壓後即可以使用。
本地啓動
- 配置環境變量
- 進入$SPARK_HOME,執行
./bin/spark-shell --master local[2]
,可以看到如下內容即爲成功
注意,可以通過紅框圈出來的地址去訪問Spark的作業執行情況。