應用場景:hive to gp 的數據抽取,在實踐中發現存在大量的數據缺失,hive數據完整,而往gp抽數後gp數據存在數據缺失的問題。在datax官方github上有人討論是hive 的orc數據格式的問題。這感覺很坑啊!後面試了很多種數據存儲格式依然也存在這樣的問題。後面帶我的導師,通過經驗和嘗試的思路發現是hdfs文件存在過大也會產生這樣的問題。規避方案是重新均衡hdfs 文件大小,這種規避方案是可行的。
注:在實踐中也發現,datax往gp中寫數最好使用gp的writer方式,github上有人已經分享了。如果不使用這種形式,寫數會異常的慢。