爬虫（requests）爬取数据爬到一半时乱码了的解决办法

原創

2019-01-21 23:30

今天写了一个爬虫采集一些数据，刚开始一切都很好，后来采集到3万条左右的时候出现了乱码，不仅是保存到CSV文件中是乱码，就连打印到控制台窗口也是乱码，这时怎么一回事？

初步将问题定在网页编码可能发生了改动，一开始我请求数据是这样写的：

html = requests.get(detailUrl, headers=headers, timeout = 5).text
mytree = lxml.etree.HTML(html)

这样在一开始的时候控制台上和CSV文件中都没有出现乱码，但是后面在某一页数据之后就开始乱码了，然后我就做了这样的修改：

html = requests.get(detailUrl, headers=headers, timeout = 5)
html.encoding = 'utf-8'
mytree = lxml.etree.HTML(html.text)

将请求到的数据强制用” utf-8 “ 进行编码，这样修改过后控制台输出的信息没有乱码，但是CSV中间中还是乱码，后来我又对CSV文件保存数据的方式进行了修改，具体修改方式参见我的上一篇博客，至此，乱码问题就被解决了。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Python小知识————如何解决Python日常代码中的一些BUG

相信很多小夥伴在日常敲代碼的過程中，一不小心或者一不留神就會出錯，程序總會被各種各樣的bug困住，擾亂我們這些程序猿的心境。那麼今天我就來跟大家分享一下簡單常見的BUG及相應BUG的處理方法，這樣的話，下次我們再遇到這些BUG，就

2020-07-07 22:20:20

smb连接错误"请检查服务器名称或IP地址，然后再试一次，如果问题持续发生，请联系系统管理员"

問題公司內部的共享服務器突然訪問不了了（iMac訪問Windows共享）。提示錯誤“請檢查服務器名稱或IP地址，然後再試一次，如果問題持續發生，請聯繫系統管理員” 經過試驗，有如下現象：可以訪問舊服務器，沒法訪問新服務器，但

天下第一好大人

2020-07-05 20:03:41

python错误处理与调试

錯誤處理 python有一套 try...except...finally...來處理錯誤，相當於Java的異常，finally最終，都會執行 # 錯誤處理 try: print('try...') r = 10

2020-06-30 17:43:24

使用gdal拼接遥感影像数据丢失

今天遇到一個比較特別的問題，在windos中使用gdal拼接出的影像是正常的，但是把項目打包到linux上運行時，出現了數據丟失的情況，就在數據的最後，會有部分數據丟失。首先分析，windows中運行沒有問題，只在linux出現

weixin_43169720

2020-06-30 05:19:16

Python 使用过程中出现的错误及其解决方案

2020 06 23 測試textcnn AttributeError: module 'sklearn.metrics' has no attribute 'accuracy_score' 更新 scikit-learn pip i

2020-06-28 19:12:23

error LNK1169 : 找到一个或多个重定义的符号

一般解決方法一般情況下在學習數據結構的時候會在程序中添加類，這個時候就有可能產生重定義的問題，解決的辦法就是添加extern聲明，上過c語言的都知道。例如：現有三個文件： a.h a.cpp ma

2020-06-27 22:13:58

error：尝试引用已删除的函数或已显式删除函数

很基礎的操作在重載運算符的時候，尤其是<<和>>運算符重載，我們也許會遇到這個問題，一般情況下就是函數的聲明沒有寫好，如這樣的聲明： friend std::ostream operator<<(std::ostream &ou

2020-06-27 22:13:58

错误总结-myBatis plus 分页

錯誤總結-myBatis plus 分頁今天碰到了一個神奇的問題： org.mybatis.spring.MyBatisSystemException: nested exception is org.apache.ibatis

2020-06-27 17:37:47

【错误处理】【MySQL】The server time zone value '' is unrecognized or represents more than one time zone.

錯誤描述： MySQL連接數據庫時提示系統時區出現錯誤 java.sql.SQLException: The server time zone value '�й��׼ʱ��' is unrecognized or repres

2020-06-25 23:17:07

Failed to convert from type [java.lang.String] to type [java.util.Date] for value 错误处理

Vue 前端向Java後臺傳遞時間格式數據，進行數據查詢，出現這個錯誤信息 Resolved [org.springframework.web.method.annotation.MethodArgumentTypeMismatchExc

清雨未尽时

2020-06-25 12:03:53

org.springframework.http.converter.HttpMessageNotReadableException: Required request body 错误处理

[org.springframework.http.converter.HttpMessageNotReadableException: Required request body is missing 這是因爲@RequestBody

清雨未尽时

2020-06-25 12:03:43

关闭 el-dialog 视图后，网页不能滑动问题处理

1.問題出現的原因組件內用el-table 組件顯示多條數據，網頁可滑動瀏覽，點擊列表內某一個圖片，用el-dialog模態組件展示大圖。關閉後el-dialog組件後，頁面不能滑動，多餘部分被裁剪。 2.這個原並不是頁面代碼的問

清雨未尽时

2020-06-25 12:03:43

SQLSERVER EXPRESS 安装失败 code1645

現象：運行安裝程序後，無任何出錯，正常結束。但卻沒有安裝成功。問題查找：在安裝程序（Program files）目錄下找到SQL SERVER 日誌（類似安裝問題，都可以通過這種方法進行排查），查到錯誤 code1645。問題解決將

巫师练法术

2020-06-25 02:37:28

Android Studio上用真机调试时，无法查看Logcat日志信息解决方法

轉載請註明來源： http://blog.csdn.net/KjunChen/article/details/50384523 Question 最近在Android Studio上使用真機調試時，發現在Android Mon

2020-06-23 09:29:28

Error:Unable to load class ‘org.gradle.api.publication.maven.internal.DefaultMavenFactory’

轉載請註明來源： http://blog.csdn.net/kjunchen/article/details/50850878 Error:Unable to load class ‘org.gradle.api.public

2020-06-23 09:29:27

24小時熱門文章

最新文章

最新評論文章