1、hdfs端口的坑,用惯了Apache Hadoop的hdfs,默认端口是9000,而CDH hdfs的端口则是8022
Protocl message end-tag did not match expectd tag; 这个报错,只要把端口改过来就行了。
2、Sqoop从hdfs导入oracle,oracle字段长度不够 (或字段没有对应上造成的)
value too large for column
3、Spark序列化内存不够
To avoid this,increase spark.kryoserializer.buffer.max value
直接在提交的脚本里更改
-conf ‘spark.kryoserializer.buffer.max=64’
或者在代码里设置: sparkConf.set(“spark.kryoserializer.buffer.max”,”64”);