Scrapy是一個很好的爬蟲框架,但是在我們把爬取的數據保存成csv的時候,我們常常會發現,保存下來的數據是亂碼,網上也搜索了很多中解決辦法,但是很多都是解決不了,先總結下來。
我們在命令行裏執行Scrapy框架的時候的步驟如下:
1,首先我們先進入我們spider的目錄
cd /Users/zhaomeng/licaiproduct/licaiproduct/spiders
2,執行爬蟲文件
scrapy crawl licaiproduct
但是我們常常想把數據保存爲excel的格式,所以我們常常會使用如下的辦法:
1.使用命令行
scrapy crawl licaiproduct -o XXXX.csv -s FEED_EXPORT_ENCIDING=utf-8,例如 這個博客所示:解決辦法 ,但是我嘗試裏該篇博客的第一個方法後,打開後還是出現了亂碼,所以該篇博客第一種解決辦法並不能很好的解決。
2.使用第三方軟件修改編碼格式
notepad2打開,選擇編碼ANSI,保存,再用excel打開就是正常的了,(沒測試,感覺很雞肋)
3.使用Scrapy框架的優勢,代碼生成excel。
很多博客都有所涉及,鏈接如下:代碼生成 (沒測試,很麻煩)
最後的解決辦法
在創建項目的settings.py中,添加如下代碼
FEED_EXPORT_ENCODING = 'gb18030'
即可解決亂碼問題。