pyspark saveAsPickleFile序列化问题记录

  1. 使用rdd.saveAsPickleFile方法是根据task个数生成对应数目的序列化文件,且每个序列化文件都有文件头,在getmerge后无法正常解析;(调整partition个数,每个文件解析一次)

  2. 出现pickle对py2和py3不兼容的问题,导致了问题,因为通过py3读取py2生产的数据

UnicodeDecodeError: 'ascii' codec can't decode byte 0x90 in position 614: ordinal not in range(128)

参考网上的解决方案,将sparkpickle库中的__init__.py文件中的callback函数中调用的pickle.load(file)改为pickle.load(file, encoding=“latin1”)

  1. 在读取数据时,最后两个字段在pyspark中的类型为<class ‘pyspark.ml.linalg.DenseVector’>,导致在读取的时候需要安装pyspark才可以反序列化。
  2. 解决完上述问题后出现ValueError: could not convert string to float错误,查看错误位置在pyspark中的代码ar = np.array(ar, dtype=np.float64),正在重新抽取数据,在pyspark中直接将后两个字段使用json的方式读取为list进行序列化存储

在解决问题4后,问题2和问题3也一并解决了

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章