Spark版本
學習用2.4.2
大版本 APIs change
次版本 APIs/features
小版本 (核心的東西沒有變,只是修復了一些bug)所以小版本要選大的
小版本如果是0,最好不要選,沒有被修復過,bug多
Spark編譯
由於hadoop-2.6.0-cdh5.7.0和官網的hadoop2.6.0不一樣。並且,Spark需要支持K8S、Hive等等,Spark對應的Hadoop版本需要是CDH版本的,所以Spark需要使用自己編譯後的版本。
./dev/make-distribution.sh --name 2.6.0-cdh5.7.0 --tgz -Phadoop-2.6 -Phive -Phive-thriftserver -Pyarn -Pkubernetes -Dhadoop.version=2.6.0-cdh5.7.0
make-distribution的腳本其實是將mvn的命令包起來,並且最後會打成tgz包,名字
spark-$VERSION-bin-$NAME.tgz spark-2.4.2-bin-2.6.0-cdh5.7.0.tgz
具體的編譯過程,見:https://blog.csdn.net/qq_32641659/article/details/89684042