Python爬蟲之urlib.parse

1.urlencode()

這裏我們介紹一個常用的方法——urlencode(),它在構造GET請求參數的時候非常有用,示例如下:

import urllib.parse
dict = {
    'wd':'周杰倫'
}
base_url = "http://www.baidu.com/s?"
url = base_url + urllib.parse.urlencode(dict)
print(url)

這裏首先聲明瞭一個字典來將參數表示出來,然後調用urlencode()方法將其序列化爲GET請求參數。

運行結果如下:

http://www.baidu.com/s?wd=%E5%91%A8%E6%9D%B0%E4%BC%A6

可以看到,參數就成功地由字典類型轉化爲GET請求參數了。

這個方法非常常用。有時爲了更加方便地構造參數,我們會事先用字典來表示。要轉化爲URL的參數時,只需要調用該方法即可。

2.parse_qs()和parse_qsl()

有了序列化,必然就有反序列化。
利用parse_qs()方法,可以將它轉回字典
利用parse_qsl()方法,可以將它轉化爲元組組成的列表
示例如下:

import urllib.parse
str = 'wd=%E5%91%A8%E6%9D%B0%E4%BC%A6'
qs = urllib.parse.parse_qs(str)
qsl = urllib.parse.parse_qsl(str)
print(qs)
print(qsl)

運行結果如下:

{'wd': ['周杰倫']}
[('wd', '周杰倫')]

3.quote()和unquote()

quote()方法可以將內容轉化爲URL編碼的格式。URL中帶有中文參數時,有時可能會導致亂碼的問題,此時用這個方法可以將中文字符轉化爲URL編碼.
unquote()方法可以進行URL解碼。
示例如下:

import urllib.parse
quote = urllib.parse.quote('周杰倫')
print(quote)
unquote = urllib.parse.unquote('%E5%91%A8%E6%9D%B0%E4%BC%A6')
print(unquote)

運行結果如下:

%E5%91%A8%E6%9D%B0%E4%BC%A6
周杰倫
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章