編譯Spack源碼

版本說明

Hadoop:2.6.0-cdh5.15.1
JDK:1.8.0
Spark:2.4.4
Maven:Spark源碼內置,路徑:spark-2.4.4/build/mvn
以上軟件都需要提前設置好環境變量,但是Maven, Scala和Zinc在編譯的時候會自動下載對應版本到build/目錄下,所以不需要提前安裝。

修改pom.xml

spark-2.4.4/pom.xml

  1. 增加cloudera的repository

    <repository>
     	<id>cloudera</id>
        <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url>
    </repository>
    
  2. 關閉zinc

    <useZincServer>false</useZincServer>
    

Spark默認版本說明

spark-2.4.4/pom.xml文件中我們可以看到,默認使用的是Hadoop2.6.5,這個小版本和我們當前的2.6.0-cdh5.15.1還是存在差異的,所以需要用-Dhadoop.version=2.6.0-cdh5.15.1指定版本號
在這裏插入圖片描述
執行命令:./build/mvn -Pyarn -Phive -Phive-thriftserver -Dhadoop.version=2.6.0-cdh5.15.1 -DskipTests clean package
說明:使用Yarn、Hive和ThriftServer,重設Hadoop版本爲2.6.0-cdh5.15.1
第一次執行會比較慢,大概要1~2個小時。

還有另一種方式可以生成一個可以執行的包,執行命令:./dev/make-distribution.sh --name 2.6.0-cdh5.15.1 --tgz -Pyarn -Phive -Phive-thriftserver -Dhadoop.version=2.6.0-cdh5.15.1,其實就是對上面的命令進行了一個封裝,推薦使用這種方式。
編譯完成後,會生成一個名爲spark-2.4.4-bin-2.6.0-cdh5.15.1.tgz的包,解壓後即可以使用。

本地啓動

  1. 配置環境變量
  2. 進入$SPARK_HOME,執行./bin/spark-shell --master local[2],可以看到如下內容即爲成功
    在這裏插入圖片描述
    注意,可以通過紅框圈出來的地址去訪問Spark的作業執行情況。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章