python網絡爬蟲系列(一)——urllib庫(urlopen、urlretrieve、urlencode、parse-qs、urlparse和urlsplit、request.Request類)

urllib庫

urllib庫是Python中一個最基本的網絡請求庫。可以模擬瀏覽器的行爲,向指定的服務器發送一個請求,並可以保存服務器返回的數據。

一、urlopen函數:

在Python3的urllib庫中,所有和網絡請求相關的方法,都被集到urllib.request模塊下面了,以先來看下urlopen函數基本的使用:

from urllib import parse,request

resp=request.urlopen('http://www.baidu.com')
print(resp.read())

在這裏插入圖片描述

實際上,使用瀏覽器訪問百度,右鍵查看源代碼。你會發現,跟我們剛纔打印出來的數據是一模一樣的。也就是說,上面的三行代碼就已經幫我們把百度的首頁的全部代碼爬下來了。一個基本的ur請求對應的python代碼真的非常簡單。
以下對urlopen函數的進行詳細講解:

  1. ur1:請求的url。
  2. data:請求的data,如果設置了這個值,那麼將變成post請求。
  3. 返回值:返回值是一個http.client.HTTPResponse對象,這個對象是一個類文件句柄對象。有read(size)readlinereadlines以及 getcode等方法。

二、urlretrieve函數:

這個函數可以方便的將網頁上的一個文件保存到本地。以下代碼可以非常方便的將百度的首頁下載到本地:

request.urlretrieve("http://www.baidu.com/""baidu.html"

在這裏插入圖片描述

三、urlencode函數:

用瀏覽器發送請求的時候,如果url中包含了中文或者其他特殊字符,那麼瀏覽器會自動的給我們進行編碼。而如果使用代碼發送請求,那麼就必須手動的進行編碼,這時候就應該使用urlencode函數來實現。urlencode 可以把字典數據轉換爲URL編碼的數據。
示例代碼如下:

from urllib import parse
data={'name':'爬蟲基礎','greet':'hel1o world','age':100}
qs=parse.urlencode(data)
print(qs)

在這裏插入圖片描述

四、parse-qs函數:

可以將經過編碼後的url參數進行解碼.示例代碼如下:

from urllib import parse 
qs="name=%E7%88%AC%E8%99%AB%E5%9F%BA%E7%A1%80&greet=hel1o+world&age=100"
print(parse.parse_qs(qs))

在這裏插入圖片描述

五、urlparse和urlsplit:

有時候拿到一個url想要對這個url中的各個組成部分進行分割,那麼這時候就可以使用urlparse 或者是urlsplit來進行分割。

urlparse VS urlsplit:
urlparse和urlsplit基本上是一模一樣的。唯一不一樣的地方是,'urlparse裏面多了一個params屬性,而urlsplit 沒有這個params 屬性。
比如有一個ur1爲:url=“http://www.baidu.com/s;he116wd=python&username=abc#1”,那麼urlparse可以獲取到hello,而urlsplit不可以獲取到ur1中的params。不過params也用得比較少。

示例代碼如下:

from urllib import parse

# urlparse()函數,可以對url中的各個組成部分進行分割
url = 'http://www.baid.com/s;hello?wd=python&username=abc#1'
result = parse.urlparse(url)
print(result)
print('sheme:',result.scheme)
print('netloc:',result.netloc)
print('path:',result.path)
print('params:',result.params)
print('query:',result.query)
print('fragment:',result.fragment)
print("___________________________________________________")

# urlsplit()函數,可以對url中的各個組成部分進行分割。
# 與urlparse()函數的區別是獲取不到params參數
url = 'http://www.baid.com/s;hello?wd=python&username=abc#1'
result1 = parse.urlsplit(url)
print(result1)
print('sheme:',result1.scheme)
print('netloc:',result1.netloc)
print('path:',result1.path)
print('query:',result1.query)
print('fragment:',result1.fragment)



在這裏插入圖片描述

六、request.Request類:

如果想要在請求的時候增加一些請求頭,那麼就必須使用request.Request類來實現。比如要增加一個user-Agent,示例代碼如下:
在這裏插入圖片描述

from urllib import request,parse

# url = 'https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput='

# resp = request.urlopen(url)
# print(resp.read())


url='https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false'
headers = {
    'User-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36',
    'Referer': 'https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=',
    'cookie':'JSESSIONID=ABAAAECABFAACEA3AD765CDE843CA586D421446C532914E; WEBTJ-ID=20200705115323-1731d1b6bc825-0405fa83b8e6d6-4353760-1327104-1731d1b6bc9384; RECOMMEND_TIP=true; _ga=GA1.2.46425096.1593921203; _gid=GA1.2.826525276.1593921203; Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1593921203; user_trace_token=20200705115324-c8c6fa59-8a84-4396-8006-b333350a1ba3; LGUID=20200705115324-4e60a88a-117c-41b1-9f9a-4fab6e3de16c; index_location_city=%E5%85%A8%E5%9B%BD; sensorsdata2015jssdkcross=%7B%22distinct_id%22%3A%221731d1bd5ef189-0fcf11ef369d0e-4353760-1327104-1731d1bd5f053e%22%2C%22%24device_id%22%3A%221731d1bd5ef189-0fcf11ef369d0e-4353760-1327104-1731d1bd5f053e%22%7D; sajssdk_2015_cross_new_user=1; gate_login_token=026296b5405ba7262db2b24fcf9d5b8117c81a1e33622a5e79041639173d1a81; LG_HAS_LOGIN=1; _putrc=FC2FE27B6F83DDA8123F89F2B170EADC; login=true; hasDeliver=0; privacyPolicyPopup=false; TG-TRACK-CODE=search_code; X_HTTP_TOKEN=fce9ae0065ee91cf1966393951d8f9e3438bdf9565; _gat=1; Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1593936691; unick=%E7%94%A8%E6%88%B77635; showExpriedIndex=1; showExpriedCompanyHome=1; showExpriedMyPublish=1; PRE_UTM=; PRE_HOST=; PRE_LAND=https%3A%2F%2Fwww.lagou.com%2Fjobs%2Flist%5Fpython%3FlabelWords%3D%26fromSearch%3Dtrue%26suginput%3D; PRE_SITE=https%3A%2F%2Fwww.lagou.com%2F; LGSID=20200705161131-ef5a3ae0-624a-4e8d-a2ab-f1a137a0b949; SEARCH_ID=af2f4215dc1c4b94b740856f91881da2; LGRID=20200705161132-15702da1-6480-4fa5-8e16-72c5a2c0ed45'
}

data = {
    'first':'true',
    'pn':1,
    'kd':'python'
}

req = request.Request(url,headers=headers,data=parse.urlencode(data).encode('utf-8'),method='POST')
resp = request.urlopen(req)
print(resp.read().decode('utf-8'))
# print(resp.read())

在這裏插入圖片描述
JSON在線解析網站:http://json.cn/
自動獲取本地IP地址網站:http://httpbin.org/

七、代碼:

from urllib import request
from urllib import parse

# resp = request.urlopen('http://www.baidu.com')
# print(resp.read())
# print(resp.read(10))
# print(resp.readline())
# print(resp.readlines())
# print(resp.getcode())


# urlretrieve函數,可以將網頁上的一個文件保存到本地
# request.urlretrieve("https://timgsa.baidu.com/timg?image&quality=80&size=b9999_10000&sec=1593927965278&di=8749753c6b8d8d142eb37ebac38fe7de&imgtype=0&src=http%3A%2F%2Fcyimg.quji.com%2Fnewsimg%2F2016%2F02%2F19%2F0449ff918e2484761f2dee7af1432108.jpg",'luban.jpg')


# urlencode函數,可以把字典數據轉換成url編碼的數據

# data = {'name':'爬蟲基礎','greet':'hello world','age':100}
# qs = parse.urlencode(data)
# print(qs)

# 案例
# url = 'http://www.baidu.com/s?wd=劉德華'
url = 'http://www.baidu.com/s'
params = {"wd":"劉德華"}
qs = parse.urlencode(params)
print(qs)
url = url + "?" + qs
print(url)
resp = request.urlopen(url)
print(resp.read())


# parse_qs函數,可以將經過編碼後的url參數進行解碼
print(parse.parse_qs(qs))

在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章