hive向mysql導入數據錯誤問題( java.lang.RuntimeException: Can't parse input data:)

最近因爲工作需要開始接觸hive和mysql的數據加載,其中hive向mysql存儲數據時,因爲hive 表的格式可能導致錯誤。下面講這個問題。


錯誤情況

運行sqoop語句,將hive數據導入mysql。

 sqoop export --connect jdbc:mysql://1.1.1.1:3306/database  --username root --password 123456 --table test_tmp --export-dir /apps/hive/warehouse/test_db/tmp_test --input-null-string '\N' --input-null-non-string '\N' --input-fields-terminated-by '\t'

執行後發現任務失敗,查詢日誌如下:

2019-09-06 16:04:36,983 INFO [IPC Server handler 8 on 44004] org.apache.hadoop.mapred.TaskAttemptListenerImpl: Diagnostics report from attempt_1565257243596_0714_m_000001_0: Error: java.io.IOException: Can't export data, please check failed map task logs

	at org.apache.sqoop.mapreduce.TextExportMapper.map(TextExportMapper.java:122)

	at org.apache.sqoop.mapreduce.TextExportMapper.map(TextExportMapper.java:39)

	at org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:146)

	at org.apache.sqoop.mapreduce.AutoProgressMapper.run(AutoProgressMapper.java:64)

	at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:787)

	at org.apache.hadoop.mapred.MapTask.run(MapTask.java:341)

	at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:170)

	at java.security.AccessController.doPrivileged(Native Method)

	at javax.security.auth.Subject.doAs(Subject.java:422)

	at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1866)

	at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:164)

Caused by: java.lang.RuntimeException: Can't parse input data: '>xhX@�'

	at pdm_runway_list_tmp.__loadFromFields(pdm_runway_list_tmp.java:2472)

	at pdm_runway_list_tmp.parse(pdm_runway_list_tmp.java:2190)

	at org.apache.sqoop.mapreduce.TextExportMapper.map(TextExportMapper.java:89)

	... 10 more

Caused by: java.lang.NumberFormatException: For input string: ">xhX@�"

	at java.lang.NumberFormatException.forInputString(NumberFormatException.java:65)

	at java.lang.Integer.parseInt(Integer.java:580)

	at java.lang.Integer.valueOf(Integer.java:766)

	at pdm_runway_list_tmp.__loadFromFields(pdm_runway_list_tmp.java:2259)

	... 12 more

分析

首先谷歌該異常,認爲需要添加 --input-fields-terminated-by '\t',但我已經添加該設置。

但檢查數據 發現並沒有亂碼的數據 >xhX@�

最後查看建表語句,發現有如下設置,應該時壓縮和間隔對數據產生轉移產生影響。

ROW FORMAT DELIMITED

  FIELDS TERMINATED BY '\t'

  LINES TERMINATED BY '\n'

STORED AS ORC

TBLPROPERTIES ("orc.compress"="SNAPPY")

;

解決

嘗試用沒有該項設置的新表存儲轉移數據,成功導出。


思考

發現建表時候設置會對導出數據產生影響(尤其時分隔符),而且之後的導出設置可能對這種表結構不起作用。而轉移到臨時表不失爲一種好的方法。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章