Python3爬虫——关于URL中文转码的方法

在我们进行数据传参访问的时候，HTTP协议的参数通常以键值对的形式出现，多个参数之间用 &分隔，但是如果值是中文或者是其他特殊字符的话，就要对其进行转码，不然可能会产生歧义，我们接下来就来看下如何对中文进行转码：

from urllib import parse

str = '中国'

print(parse.quote(str))    # 对中文进行编码
print(parse.unquote(parse.quote(str)))    # 进行解码操作

# 输出结果：
# %E4%B8%AD%E5%9B%BD
# 中国

之前也有讲过，不同网站的编码格式也是会有差别的，这时候我们就需要根据他们的编码格式进行调整，先将文字转换为网站相同的编码，然后再进行转码：

from urllib import parse

str = '中国'

print(str)
print(parse.quote(str.encode('gbk')))
print(parse.quote(str.encode('utf-8')))

# 输出结果：
# 中国
# %D6%D0%B9%FA
# %E4%B8%AD%E5%9B%BD

那么我们在编程的时候会经常看见encode和decode，他们之间分别代表什么呢？

str = '中国'    # 我们需要进行编解码的字符

str1 = str.encode('gbk')        # 我们设置编码格式为GBK
str2 = str.encode('utf-8')      # 设置编码格式为utf-8

print(str1)
print(str2)
# 如果这里输出str2.decode('gbk')就会报错，因为编码格式不匹配
print(str2.decode('utf-8'))    # 将字符解码输出

# 输出结果：
# b'\xd6\xd0\xb9\xfa'
# b'\xe4\xb8\xad\xe5\x9b\xbd'
# 中国

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Python3爬虫——关于URL中文转码的方法

使用c#强大的表达式树实现对象的深克隆之解决循环引用的问题

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU启动那些事（12.A）- uSDHC eMMC启动时间(RT1170)

GPT-4o 引领人机交互新风向，向量数据库赛道沸腾了

企业大模型如何成为自己数据的“百科全书”？

本地SSL证书过期输入命令在IIS自动生成

基于Ubuntu-22.04安装K8s-v1.28.2实验（二）使用kube-vip实现集群VIP访问

.NET周刊【5月第2期 2024-05-12】

Python3用pyinstaller打包程序出現ModuleNotFindError的解決方法

Python3.9 解決 ImportError: No system module pywintypes (pywintypes39.dll) 的方法

Python爬蟲——獲取ajax異步加載數據

Python3爬蟲——用BeautifulSoup解析古詩文網

Python爬蟲（二）——爬取電影天堂，保存下載地址

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結