pandas read_csv报错Skipping line 749030: expected 30 fields, saw 31

  最近处理个需求需要在hive导出文件后用pandas进行处理生成个新的csv。

  然后在read_csv时,遇到了这个跳过这以行的提醒,文件100行可能读进dataframe中可能只剩下了8行,这是因为在csv中的分隔符是',',在hive字段中如果有英文逗号就会在pandas转成多列就不会读进dataframe

  解决方法:在hive -e进行重定向之前,将hive的对应字段进行一步清洗工作,比如translate(name,",","") as name,这样在hive -e导出的csv读取时就可以全部写入dataframe不会少行了

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章