------------------sqoop 踩坑------------
0.sqoop 执行缺少一些jar
需要将相关的jar包放到sqoop/lib
1.hue不支持sqoop相关命令hive hbase
已解决
2.oozie配置corn表达式显示不对问题,
当输入*/5 * * * * ,保存后却变成了* * * *,但实际存储的是*/5 * * * *,不影响功能,只影响显示。usdp说是oozie版本问题
3.Oozie调度补跑问题
当设置时间早于当前时间会出现任务补跑,如果是5 * * * *,指的是 每个小时的 第5分钟,也就是 17:05, 18:05,19:05才会执行,并不是每5分钟
4.Sqoop hive不支持增加导入问题
--incremental lastmodified 可以实现增量导入,但是结合--hive-import导入hive不支持,
可以先导入到hdfs,然后建hive表
5.Oozie bound创建不成功问题
目前没解决
6. hue oozie 执行 sqoop job 任务?
sqoop job 默认把meta保存在单机存储中 ,在集群环境中需要指定--meta-connect来统一存储管理job的meta
7. 通过mysql存储sqoop job异常: 锁表sqoop mysql metastore java.sql.SQLException: Lock wait timeout exceeded; try restarting transaction
将表的改为ENGINE=MyISAM
8.oozie调度sqoop Job 数据库密码无法保存
通过--password-file hdfs:///user/zzm/.password.file 将密码保存到hdfs中
9.执行sqoop job 需要输入数据库密码
修改 sqoop-site.xml 配置项sqoop.metastore.client.record.password=true
10. sqoop job --create hdfs-meta --meta-connect '' -- import
创建sqoop job 命令中 -- import 中间有个空格
11. hue command窗口中使用query是有问题的。对于query后的sql,由于hue调用oozie,oozie在解析命令时会将sql拆解成多个参数,而不是当成一个参数,导致运行时会无法解析命令。
方案
1、直接在hue中利用ssh运行脚本
2、空出command命令框,而在参数框中打入命令
12. sqoop 增量导入重复数据数据问题
--incremental lastmodified --append 重复
--incremental lastmodified --merge-key 会做合并
13.
sqoop 踩坑
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.