處理數據(文本)時遇到過的坑

訓練詞向量時,本來就是準備好格式一定訓練文本,然後調用gensim開始訓練。但是訓練過程中出現了這樣的幺蛾子,編碼坑

UnicodeDecodeError: 'utf8' codec can't decode bytes in position 4229-4231: invalid continuation byte

可能原因,文本中有不能解碼的字符,無法處理。於是參看一下文本,感覺還不錯,效果未知
參看:http://blog.csdn.net/xiaoguaihai/article/details/25735937

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章