Question7: 針對詭異的HTML編碼錯亂問題個例

原創

2020-05-09 21:02

偶然發現個別特俗的HTML編碼錯亂的例子。字符集編碼設置在HTML header和response headers，charset是GB2312，啓用gzip壓縮。

通過代碼獲取原始數據流：

>>from self_defined_http_connection import *

>>response = connect(“https://www.***.com”)

>>statuscode = getcode(response)

>>statuscode

>>rawdata = response.read()

>>rawdata

可以看到是顯示的是二進制的十六進制表現編碼（representation）。現在就開始解碼。

如果直接decode解碼會怎麼樣？

出現錯誤提示：

“UnicodeDecodeError: ‘gb2312’ codec can’t decode byte 0x8b in position 1: illegal multibyte sequence”

“UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0x8b in position 1: illegal multibyte sequence”

“UnicodeDecodeError: ‘gb18030’ codec can’t decode byte 0x8b in position 1: illegal multibyte sequence”

從第一幅圖片可以看到採用的是gzip壓縮編碼。所以先進行gzip解壓縮。

>>from io import BytesIO

>>buffer = BytesIO(rawdata)

>>f = gzip.GzipFile(mode=”rb”, fileobj=buffer)

>>decompressrawdata = f.read()

由於其字符集編碼設置是“GB2312”，所以先用該字符集解碼。

>>decompressrawdata.decode(“gb2312”)

結果出現“UnicodeDecodeError: ‘gb2312’ codec can’t decode byte 0x85”的錯誤：

這有點詭異：定義的字符集與表現的編碼不一致。不管如何，進行到這裏，試試其他字符集。

>>decompressrawdata.decode(“gbk”)

竟然成功了！再試

>>decompressrawdata.decode(“gb18030”)

也成功了！（字符集編碼數量排序：GB2312 < GBK < GB18030）

試試另一個相同字符集的網站，先看看配置

獲取原始數據流並直接解碼。

>>response = connect(“http://www.***.com.cn”)

>>rawdata = response.read()

>>rawdata.decode(“GB2312”)

>>rawdata.decode(“GBK”)

結果看下圖：

解碼直接成功！

如果按照前一例子的方法試試？

錯誤提示：“raise BadGzipFile(‘Not a gzipped file (%r)’ % magic)

gzip.BadGzipFile: Not a gzipped file (b’CT’)”

(What could I say?:)（這一定是幻覺？？？）

筆者能想到的可靠的解釋是gzip level(待驗證)或bug。

注：測試環境Windows10 + Python3.8.*

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Question7: 針對詭異的HTML編碼錯亂問題個例

釘釘打卡速度慢

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Python 潮流週刊#51：用 Python 繪製美觀的圖表

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Golang初學：獲取程序內存使用情況，std runtime

翻譯 Spring Framework 5.2.7部分基本概念要點解答疑惑--IoC控制反轉/DI依賴注入是怎麼一回事？

Nginx安裝配置遇到的問題（一）

採集圖片集的代碼 SPI Version 1.0

麪包實驗(Bread Test): jvmargs 對 Android studio 3.4.x的影響

包含/導入是什麼意思--import/include的含義

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結