Python_爬蟲_1

1、urlopen函數
在python3的urlib庫中,所有和網絡請求相關的方法,都在urlib.request模塊下,urlopen函數的基本使用:

from urllib import request
resp = request.urlopen('https://www.baidu.com')
print(resp.read())
urlopen的返回值是一個http.client.HTTPResponse對象,這個對象是一個類文件句柄對象,有 read(), deadline

readlines以及getcode()等方法。
需要注意的是,在使用了read方法後,文件的指針會指向文件的最末尾,因此,再讀的時候就爲空了,同樣,readline
和readlines也會造成文件指針的後移。
2、urlretrieve函數
這個函數可以方便的將網頁上的一個文件保存到本地
request.urlretrieve(‘http://www.baidu.com’, ‘baidu.index.html’)

3、urlencode函數
用瀏覽器發送請求的時候,如果url中包含了中文字符或其他特殊字符,那麼瀏覽器會自動給我們進行編碼。而如果使用代碼
發送請求,那麼就必須使用urlencode函數來實現,urlencode函數可以將字典數據轉化成url編碼的數據

data = {'name': '張三', 'age': 18}
qs = parse.urlencode(data)
result:
name=%E5%BC%A0%E4%B8%89&age=18

4、parse_qs函數
可以將經過編碼後的url參數進行解碼
print(parse.parse_qs(qs))
result:
{‘wd’: [‘王子文’]}

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章