hive記錄中包含換行符時存儲格式爲textfile導致多行記錄問題

在處理hive數據記錄時發現orc格式時本來一行記錄,但是在轉textfile文件時導致多行錯誤記錄;在排查中發現textfile使用‘\n’來識別行數據,數據中包含換行符導致這樣的錯誤。處理方式,一:使用SQL的方式過濾掉這類字符(regexp_replace(column_name,'\n|\t|\r','');二:在處理etl階段過濾這類字符。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章