爬蟲（requests）爬取數據爬到一半時亂碼了的解決辦法

原創

2019-01-21 23:30

今天寫了一個爬蟲採集一些數據，剛開始一切都很好，後來採集到3萬條左右的時候出現了亂碼，不僅是保存到CSV文件中是亂碼，就連打印到控制檯窗口也是亂碼，這時怎麼一回事？

初步將問題定在網頁編碼可能發生了改動，一開始我請求數據是這樣寫的：

html = requests.get(detailUrl, headers=headers, timeout = 5).text
mytree = lxml.etree.HTML(html)

這樣在一開始的時候控制檯上和CSV文件中都沒有出現亂碼，但是後面在某一頁數據之後就開始亂碼了，然後我就做了這樣的修改：

html = requests.get(detailUrl, headers=headers, timeout = 5)
html.encoding = 'utf-8'
mytree = lxml.etree.HTML(html.text)

將請求到的數據強制用” utf-8 “ 進行編碼，這樣修改過後控制檯輸出的信息沒有亂碼，但是CSV中間中還是亂碼，後來我又對CSV文件保存數據的方式進行了修改，具體修改方式參見我的上一篇博客，至此，亂碼問題就被解決了。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Python小知識————如何解決Python日常代碼中的一些BUG

相信很多小夥伴在日常敲代碼的過程中，一不小心或者一不留神就會出錯，程序總會被各種各樣的bug困住，擾亂我們這些程序猿的心境。那麼今天我就來跟大家分享一下簡單常見的BUG及相應BUG的處理方法，這樣的話，下次我們再遇到這些BUG，就

2020-07-07 22:20:20

smb連接錯誤"請檢查服務器名稱或IP地址，然後再試一次，如果問題持續發生，請聯繫系統管理員"

問題公司內部的共享服務器突然訪問不了了（iMac訪問Windows共享）。提示錯誤“請檢查服務器名稱或IP地址，然後再試一次，如果問題持續發生，請聯繫系統管理員” 經過試驗，有如下現象：可以訪問舊服務器，沒法訪問新服務器，但

天下第一好大人

2020-07-05 20:03:41

python錯誤處理與調試

錯誤處理 python有一套 try...except...finally...來處理錯誤，相當於Java的異常，finally最終，都會執行 # 錯誤處理 try: print('try...') r = 10

2020-06-30 17:43:24

使用gdal拼接遙感影像數據丟失

今天遇到一個比較特別的問題，在windos中使用gdal拼接出的影像是正常的，但是把項目打包到linux上運行時，出現了數據丟失的情況，就在數據的最後，會有部分數據丟失。首先分析，windows中運行沒有問題，只在linux出現

weixin_43169720

2020-06-30 05:19:16

Python 使用過程中出現的錯誤及其解決方案

2020 06 23 測試textcnn AttributeError: module 'sklearn.metrics' has no attribute 'accuracy_score' 更新 scikit-learn pip i

2020-06-28 19:12:23

error LNK1169 : 找到一個或多個重定義的符號

一般解決方法一般情況下在學習數據結構的時候會在程序中添加類，這個時候就有可能產生重定義的問題，解決的辦法就是添加extern聲明，上過c語言的都知道。例如：現有三個文件： a.h a.cpp ma

2020-06-27 22:13:58

error：嘗試引用已刪除的函數或已顯式刪除函數

很基礎的操作在重載運算符的時候，尤其是<<和>>運算符重載，我們也許會遇到這個問題，一般情況下就是函數的聲明沒有寫好，如這樣的聲明： friend std::ostream operator<<(std::ostream &ou

2020-06-27 22:13:58

錯誤總結-myBatis plus 分頁

錯誤總結-myBatis plus 分頁今天碰到了一個神奇的問題： org.mybatis.spring.MyBatisSystemException: nested exception is org.apache.ibatis

2020-06-27 17:37:47

【錯誤處理】【MySQL】The server time zone value '' is unrecognized or represents more than one time zone.

錯誤描述： MySQL連接數據庫時提示系統時區出現錯誤 java.sql.SQLException: The server time zone value '�й��׼ʱ��' is unrecognized or repres

2020-06-25 23:17:07

Failed to convert from type [java.lang.String] to type [java.util.Date] for value 錯誤處理

Vue 前端向Java後臺傳遞時間格式數據，進行數據查詢，出現這個錯誤信息 Resolved [org.springframework.web.method.annotation.MethodArgumentTypeMismatchExc

清雨未尽时

2020-06-25 12:03:53

org.springframework.http.converter.HttpMessageNotReadableException: Required request body 錯誤處理

[org.springframework.http.converter.HttpMessageNotReadableException: Required request body is missing 這是因爲@RequestBody

清雨未尽时

2020-06-25 12:03:43

關閉 el-dialog 視圖後，網頁不能滑動問題處理

1.問題出現的原因組件內用el-table 組件顯示多條數據，網頁可滑動瀏覽，點擊列表內某一個圖片，用el-dialog模態組件展示大圖。關閉後el-dialog組件後，頁面不能滑動，多餘部分被裁剪。 2.這個原並不是頁面代碼的問

清雨未尽时

2020-06-25 12:03:43

SQLSERVER EXPRESS 安裝失敗 code1645

現象：運行安裝程序後，無任何出錯，正常結束。但卻沒有安裝成功。問題查找：在安裝程序（Program files）目錄下找到SQL SERVER 日誌（類似安裝問題，都可以通過這種方法進行排查），查到錯誤 code1645。問題解決將

巫师练法术

2020-06-25 02:37:28

Android Studio上用真機調試時，無法查看Logcat日誌信息解決方法

轉載請註明來源： http://blog.csdn.net/KjunChen/article/details/50384523 Question 最近在Android Studio上使用真機調試時，發現在Android Mon

2020-06-23 09:29:28

Error:Unable to load class ‘org.gradle.api.publication.maven.internal.DefaultMavenFactory’

轉載請註明來源： http://blog.csdn.net/kjunchen/article/details/50850878 Error:Unable to load class ‘org.gradle.api.public

2020-06-23 09:29:27

24小時熱門文章

最新文章

最新評論文章