datax的數據缺失的一次處理

應用場景:hive to gp 的數據抽取,在實踐中發現存在大量的數據缺失,hive數據完整,而往gp抽數後gp數據存在數據缺失的問題。在datax官方github上有人討論是hive 的orc數據格式的問題。這感覺很坑啊!後面試了很多種數據存儲格式依然也存在這樣的問題。後面帶我的導師,通過經驗和嘗試的思路發現是hdfs文件存在過大也會產生這樣的問題。規避方案是重新均衡hdfs 文件大小,這種規避方案是可行的。

注:在實踐中也發現,datax往gp中寫數最好使用gp的writer方式,github上有人已經分享了。如果不使用這種形式,寫數會異常的慢。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章