1、hdfs端口的坑,用慣了Apache Hadoop的hdfs,默認端口是9000,而CDH hdfs的端口則是8022
Protocl message end-tag did not match expectd tag; 這個報錯,只要把端口改過來就行了。
2、Sqoop從hdfs導入oracle,oracle字段長度不夠 (或字段沒有對應上造成的)
value too large for column
3、Spark序列化內存不夠
To avoid this,increase spark.kryoserializer.buffer.max value
直接在提交的腳本里更改
-conf ‘spark.kryoserializer.buffer.max=64’
或者在代碼裏設置: sparkConf.set(“spark.kryoserializer.buffer.max”,”64”);