pyspark saveAsPickleFile序列化问题记录

原創

2020-06-12 13:21

使用rdd.saveAsPickleFile方法是根据task个数生成对应数目的序列化文件，且每个序列化文件都有文件头，在getmerge后无法正常解析；(调整partition个数，每个文件解析一次)
出现pickle对py2和py3不兼容的问题，导致了问题，因为通过py3读取py2生产的数据

UnicodeDecodeError: 'ascii' codec can't decode byte 0x90 in position 614: ordinal not in range(128)

参考网上的解决方案，将sparkpickle库中的__init__.py文件中的callback函数中调用的pickle.load(file)改为pickle.load(file, encoding=“latin1”)

在读取数据时，最后两个字段在pyspark中的类型为<class ‘pyspark.ml.linalg.DenseVector’>，导致在读取的时候需要安装pyspark才可以反序列化。
解决完上述问题后出现ValueError: could not convert string to float错误，查看错误位置在pyspark中的代码ar = np.array(ar, dtype=np.float64)，正在重新抽取数据，在pyspark中直接将后两个字段使用json的方式读取为list进行序列化存储

在解决问题4后，问题2和问题3也一并解决了

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.