利用Scrapy框架爬取數據命令行保存成csv出現亂碼的解決辦法

原創

这孩子谁懂哈

2020-06-09 08:40

Scrapy是一個很好的爬蟲框架，但是在我們把爬取的數據保存成csv的時候，我們常常會發現，保存下來的數據是亂碼，網上也搜索了很多中解決辦法，但是很多都是解決不了，先總結下來。

我們在命令行裏執行Scrapy框架的時候的步驟如下：

1，首先我們先進入我們spider的目錄

cd /Users/zhaomeng/licaiproduct/licaiproduct/spiders

2，執行爬蟲文件

scrapy crawl licaiproduct

但是我們常常想把數據保存爲excel的格式，所以我們常常會使用如下的辦法：

1.使用命令行

scrapy crawl licaiproduct -o XXXX.csv -s FEED_EXPORT_ENCIDING=utf-8,例如這個博客所示：解決辦法，但是我嘗試裏該篇博客的第一個方法後，打開後還是出現了亂碼，所以該篇博客第一種解決辦法並不能很好的解決。

2.使用第三方軟件修改編碼格式

notepad2打開，選擇編碼ANSI，保存，再用excel打開就是正常的了，（沒測試，感覺很雞肋）

3.使用Scrapy框架的優勢，代碼生成excel。

很多博客都有所涉及，鏈接如下：代碼生成（沒測試，很麻煩）

最後的解決辦法

在創建項目的settings.py中，添加如下代碼
FEED_EXPORT_ENCODING = 'gb18030'

即可解決亂碼問題。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

ubuntu16.04下安裝和配置selenium

Install chrome. sudo apt-get update sudo apt-get install -y unzip xvfb libxi6 libgconf-2-4 sudo apt-get install def

2020-07-02 14:22:12

爬蟲小程序 - 爬取王者榮耀全皮膚

學習原因：爬蟲是一門有趣的技術，它可以讓我們感受到程序的魅力，給我們帶來視覺衝擊感和成就感，可以極大地提高我們對編程的學習興趣。 —————— 願你我，都能：遵循君子協議合理使用技術提高學習興趣一. 君子協議爲什

2020-07-01 09:26:27

Python爬取豆瓣前250部電影

爬取豆瓣排名前250的電影 1.準備工作編寫代碼之前，安裝好以下庫：json、request、re、time. 2.爬取分析需要爬取的目標站點爲：https://movie.douban.com/top250?star

2020-06-30 23:33:43

在scrapy框架中判斷數據庫中是否存在某個表來實現表中數據全量更新

現在有這麼個需求：就是我有一個爬蟲腳本，我想把爬取到的數據存入到mysql數據庫裏去（這個是比較簡單的），同時我還想定時執行這個腳本文件，然後讓用戶能及時看到最新的數據，所以就出現一個問題就是如何保證數據庫裏的數據是最新的呢？這裏使用

这孩子谁懂哈

2020-06-30 10:47:00

貓眼top100部高分電影spider

第一次嘗試Spider,是個突破 #encoding=utf-8 import requests import re class MaoYantop: def __init__(self): self.

2020-06-22 21:14:33

Scrapy框架流程圖詳解

（一）、Scrapy框架介紹：我們寫一個爬蟲，需要做很多事情，比如：發送網絡請求、數據解析、數據存儲、反爬蟲、反反爬蟲（更換ip代理、設置請求頭等）、異步請求等。這些事情在我們每一次寫爬蟲代碼的時候都要自己從零開始寫的話，比較浪

2020-06-22 21:14:32

xpath練習

DouyuSpider 今天學習了xpath方法，拿鬥魚主播的房間信息做一個練習，有不足之處希望各位大佬幫忙斧正。 #encoding=utf-8 from selenium import webdriver import t

2020-06-22 21:14:31

內涵段子所有段子Spider

代碼不是很完美, 抓取的數據中少數幾個帶有html標籤！ ╮(╯▽╰)╭ 只怪自己太cai, 還沒有想好怎麼把正則表達式寫的再完美一點。抓取代碼 #encoding=utf-8 import requests import

2020-06-22 21:14:31

手機app數據的爬取之mitmproxy安裝途徑

github地址 : https://github.com/mitmproxy/mitmproxy/releases/ mitmproxy下載地址 : https://mitmproxy.org/downloads/ 參考 :

漫天丶飞雪

2020-06-17 06:10:19

python RSA加密最新(RSA/ECB/PKCS1Padding)

遇到一個 java 的RSA/ECB/PKCS1Padding 加密要改成python的網上搜一堆不靠譜的，沒辦法只能自己動手寫一份了中間遇到一個ERROR： OverflowError: 458 bytes need

2020-06-17 03:59:53

利用Python爬取京東網商品信息, 實現可見即可爬

利用Python爬取京東商品信息, 實現可見即可爬以爬取Macbook商品信息爲例，通過Selenium實現可見即可爬的功能關於Selenium的driver配置問題https://blog.csdn.net/qq_19381

2020-06-16 02:31:52

你已經是一個成熟的爬蟲了，應該學會自己去對抗反爬碼農了

點這裏排版好因爲各種原因，這段時間又寫了好多爬蟲（不務正業劃掉 ?），也順帶接着這個機會來總結一下，自己認爲的爬蟲進階技巧 ps: 爬蟲千萬條，剋制第一條。我們也要照顧一下反爬工程師的感受，剋制開多線程，降低併發數以下

2020-06-13 04:40:29

從高可用IP代理池到千萬級網易雲音樂數據爬取的實現

博客引流首先㊗️大家 1024 快樂之前寫了第一版網易雲爬蟲邏輯比較簡單總結一下，就是: 抓取各分類下歌單id 根據歌單id, 獲得這個歌單id下的歌曲詳情把拿到的數據存到落到本地文件，最後利用shell腳本進行數

2020-06-13 04:40:28

可運行的最新的使用scrapy框架爬取鏈家租房數據

看了一圈網上很多爬取鏈家數據的爬蟲，但是由於鏈家已經把網頁結構換掉了，所以原來的網上代碼已經不能夠使用，剛寫了一個最新的爬蟲，可以獲取租房信息。工具： python3.6 scrapy 1.6.0 框架 vscode 編輯器基礎知

这孩子谁懂哈

2020-06-09 08:40:00

python RSA加密

2020-06-03 10:13:18

24小時熱門文章

最新文章

最新評論文章