最近剛接觸爬蟲,爬蟲很好玩,但是,編碼超煩人!!!
隨便爬個東西,想打印在命令行,就會發現以下問題:
UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' in position 10: illegal multibyte sequence
最終,我選擇了使用 jupyter notebook
來日常測試代碼,打印什麼字符都沒問題了,但是在 寫入文件時 又會遇到以上的問題。
在我的不懈努力下,終於找到了解決方法:
使用 codecs 模塊
具體使用如下 :
import codecs
f = codecs.open('test.txt', 'w', 'utf-8') # test.txt 也可以換成 test.csv
然後再寫入的時候就不會發生錯誤了。
還有更多的方法,目前還沒有都試過,可以參考博客:Python2向文件寫入Unicode字符