Spark版本
学习用2.4.2
大版本 APIs change
次版本 APIs/features
小版本 (核心的东西没有变,只是修复了一些bug)所以小版本要选大的
小版本如果是0,最好不要选,没有被修复过,bug多
Spark编译
由于hadoop-2.6.0-cdh5.7.0和官网的hadoop2.6.0不一样。并且,Spark需要支持K8S、Hive等等,Spark对应的Hadoop版本需要是CDH版本的,所以Spark需要使用自己编译后的版本。
./dev/make-distribution.sh --name 2.6.0-cdh5.7.0 --tgz -Phadoop-2.6 -Phive -Phive-thriftserver -Pyarn -Pkubernetes -Dhadoop.version=2.6.0-cdh5.7.0
make-distribution的脚本其实是将mvn的命令包起来,并且最后会打成tgz包,名字
spark-$VERSION-bin-$NAME.tgz spark-2.4.2-bin-2.6.0-cdh5.7.0.tgz
具体的编译过程,见:https://blog.csdn.net/qq_32641659/article/details/89684042