爬蟲：UnicodeDecodeError: 'gbk' codec can't decode byte 0xa6 in position

原創

2019-08-23 06:13

由於爬取的網頁編碼格式是“gb2312”格式的，所以第一反應就是也用這個格式編碼和解碼

import re
from lxml import etree
import html
with open('test.html','r',encoding='gbk') as f:
    c = f.read()
s = re.sub(r'\n',' ',c)
tree = etree.HTML(c)
rows = tree.xpath("//ul[@class='bang_list clearfix bang_list_mode']/li")
for row in rows:
    boards = {}
    s1 = etree.tostring(row).decode('gbk')
    s1 = html.unescape(s1)
    print(s1)
    break

由於 “gbk” 包括 “gb2312”所以使用了 “gbk”，其實結果都一樣
翻看了好多博客發現：

爬取的所有網頁無論何種編碼格式，都轉化爲 utf-8 格式進行存儲

具體什麼原因現在我也沒清楚，留着後續補充吧

但是關於 gbk 或者 gb2312 格式的網頁牽扯到存儲時，轉換成 utf-8 格式是沒錯的

import re
from lxml import etree
import html
with open('test.html','r',encoding='utf-8') as f:
    c = f.read()
s = re.sub(r'\n',' ',c)
tree = etree.HTML(c)
rows = tree.xpath("//ul[@class='bang_list clearfix bang_list_mode']/li")

for row in rows:
    boards = {}
    s1 = etree.tostring(row).decode('utf-8')
    s1 = html.unescape(s1)
    print(s1)
    break

正常顯示

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Requests庫基礎入門

1.Requests庫入門中文文檔：https://requests.readthedocs.io/zh_CN/latest/ gittub地址：https://github.com/requests/requests 更多信息

2020-07-06 08:31:07

爬蟲學習：scrapy相關的知識

Scrapy 是開源的爬蟲框架，快速強大，只需要寫少量的代碼即可完成爬取任務，容易擴展，添加新的功能模塊 1. scrapy 在Mac上的安裝可以使用pip安裝Scrapy 運行命令 sudo pip ins

2020-07-03 11:57:40

Python爬蟲學習之selenium+ChromeDriver實現爬蟲

selenium+ChromeDriver實現爬蟲參考：https://blog.csdn.net/u010986776/article/details/79266448 selenium所做的事情，恰恰是驅動真正的瀏覽器去執行

2020-07-02 00:25:55

Python爬蟲學習之API與模擬ajax請求

API的使用 ——通過API向服務器請求數據優點：簡單直接，高效率地批量爬取；解決動態網頁的爬取。缺點：通過API的缺點是有些網站會限制API調用的次數和頻率，用戶需要付費來升級成高級用戶來獲取更靈活的API調用。 HTTP協

2020-07-02 00:25:54

Python爬蟲學習之下載源文件與數據存儲

下載源文件與數據存儲下載源文件 urlretrieve 多用於非結構化的數據（圖片等），以下載http://www.pythonscraping.com 上的logo.jpg爲例： '''urlretrieve''' from

2020-07-02 00:25:54

Python爬蟲庫學習筆記-requests

安裝（1）利用pip安裝，命令行直接輸入pip install requests （2）利用easy_install安裝，命令行直接輸入easy_install requests 基本請求（1）requests庫提供h

2020-06-29 04:02:16

Python爬蟲實踐筆記（三）

網頁式登錄的無線網絡重連–本質註釋：事實上這個程序就是在連接了某個無線網之後，登錄該無線網指定的頁面，然後就可以正常上網了。跟爬蟲的連接和登錄網頁的本質是一樣的，只是需要分析一下請求和響應數據，以至於能夠實現重連。第一步：分

2020-06-29 04:02:16

Python爬蟲實踐筆記（二）

無登錄百度貼吧的帖子基本步驟： ①分析url ②獲取頁面 ③提取信息 ④文本處理 ⑤寫入文件備註：基本框架跟筆記（一）很相似，只是多了很多細節需要處理，所以這裏着重描述細節的處理。第一步：分析url （1）像段子、貼吧

2020-06-29 04:02:16

Python爬蟲學習筆記--MySQLdb模塊

mysql數據庫和MySQLdb模塊相關問題下載與安裝（1）首先，python要使用數據庫不是僅僅安裝相應的模塊就行的，安裝的模塊，例如這裏的MySQLdb模塊只是一個訪問mysql數據庫的接口。所以還是必須要下載一個數據庫的

2020-06-29 04:02:06

爬蟲實戰——xpath爬取電影天堂

from lxml import etree import requests HEADERS = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) Apple

SLEEPYHEAD's Blog

2020-06-28 05:25:00

爬蟲實戰——古詩文網古詩爬取

import re import requests # url = 'https://www.gushiwen.org/default_1.aspx' def parse_page(url): headers = {

SLEEPYHEAD's Blog

2020-06-28 05:25:00

查看網頁編碼方式的通用方法

在python爬蟲等各種情景模式下，往往需要查看網頁的編碼方式。下面是通用，簡單的方法。在各種瀏覽器打開的任意頁面上使用F12功能鍵，即可使用開發者工具，在窗口console標籤下，鍵入 "document.charset" 即可查看網

张少锋的博客

2020-06-17 08:30:54

2019最牛Python書單，學習Python的小夥伴看這裏！

Python 是軍刀型的開源工具，被廣泛應用於Web 開發、爬蟲、數據清洗、自然語言處理、機器學習和人工智能等方面，而且Python 的語法簡潔易讀，這讓許多編程入門者不再望而卻步，因此Python 在最近幾年非常受歡迎，各行各業的技術

2020-06-15 00:57:09

Python 爬蟲十六式 - 第七式：RE：用匹配來演繹編程的藝術

RE：用匹配來演繹編程的藝術學習一時爽，一直學習一直爽 Hello，大家好，我是 Connor，一個從無到有的技術小白。上一次我們說到了 pyquery 今天我們將迎來我們數據匹配部分的最後一位重量級人物，也是編程語言中

2020-06-10 10:42:02

Python 爬蟲十六式 - 第一式：HTTP協議

HTTP：偉大而又無聞的協議學習一時爽，一直學習一直爽！ Hello，大家好啊，我是Connor，一個從無到有的技術小白。有的人一說什麼是HTTP協議就犯愁，寫東西的時候也沒想過什麼是HTTP協議，只是知道HTTP協議

2020-06-10 10:42:02

24小時熱門文章

最新文章

最新評論文章