訓練詞向量時,本來就是準備好格式一定訓練文本,然後調用gensim開始訓練。但是訓練過程中出現了這樣的幺蛾子,編碼坑
UnicodeDecodeError: 'utf8' codec can't decode bytes in position 4229-4231: invalid continuation byte
可能原因,文本中有不能解碼的字符,無法處理。於是參看一下文本,感覺還不錯,效果未知
參看:http://blog.csdn.net/xiaoguaihai/article/details/25735937