sqoop 踩坑

------------------sqoop 踩坑------------
    0.sqoop 执行缺少一些jar
       需要将相关的jar包放到sqoop/lib 
    1.hue不支持sqoop相关命令hive hbase
       已解决
    2.oozie配置corn表达式显示不对问题,
      当输入*/5 * * * * ,保存后却变成了* * * *,但实际存储的是*/5 * * * *,不影响功能,只影响显示。usdp说是oozie版本问题
    3.Oozie调度补跑问题
      当设置时间早于当前时间会出现任务补跑,如果是5 * * * *,指的是  每个小时的 第5分钟,也就是 17:05, 18:05,19:05才会执行,并不是每5分钟 
    4.Sqoop hive不支持增加导入问题
      --incremental lastmodified 可以实现增量导入,但是结合--hive-import导入hive不支持, 
      可以先导入到hdfs,然后建hive表   
    5.Oozie bound创建不成功问题
      目前没解决
    6. hue oozie  执行 sqoop job 任务?
       sqoop job 默认把meta保存在单机存储中 ,在集群环境中需要指定--meta-connect来统一存储管理job的meta
    7. 通过mysql存储sqoop job异常: 锁表sqoop mysql metastore java.sql.SQLException: Lock wait timeout exceeded; try restarting transaction
       将表的改为ENGINE=MyISAM
    8.oozie调度sqoop Job 数据库密码无法保存
      通过--password-file hdfs:///user/zzm/.password.file  将密码保存到hdfs中
    9.执行sqoop job 需要输入数据库密码
      修改 sqoop-site.xml 配置项sqoop.metastore.client.record.password=true
    10. sqoop job --create hdfs-meta   --meta-connect '' -- import
        创建sqoop job 命令中  -- import 中间有个空格
    11. hue command窗口中使用query是有问题的。对于query后的sql,由于hue调用oozie,oozie在解析命令时会将sql拆解成多个参数,而不是当成一个参数,导致运行时会无法解析命令。
        方案
        1、直接在hue中利用ssh运行脚本
        2、空出command命令框,而在参数框中打入命令
    12. sqoop 增量导入重复数据数据问题
      --incremental lastmodified  --append 重复
      --incremental lastmodified  --merge-key 会做合并
    13. 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章