Hadoop数据处理中的小问题

1、hdfs端口的坑,用惯了Apache Hadoop的hdfs,默认端口是9000,而CDH hdfs的端口则是8022

Protocl message end-tag did not match expectd tag; 这个报错,只要把端口改过来就行了。



2、Sqoop从hdfs导入oracle,oracle字段长度不够 (或字段没有对应上造成的)

value too large for column




3、Spark序列化内存不够

To avoid this,increase  spark.kryoserializer.buffer.max value 



直接在提交的脚本里更改

-conf ‘spark.kryoserializer.buffer.max=64’

或者在代码里设置: sparkConf.set(“spark.kryoserializer.buffer.max”,”64”);




發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章