Python爬蟲入門之 urllib庫

原創

2019-12-06 12:58

　　一、urllib庫：模擬瀏覽器發送請求的庫，python自帶，無需安裝;

　　二、Python2和Python3的urllib庫的區別：

　　1. urllib是python提供的一個用於操作url的模塊。

　　2. 在python2中，有urllib庫和urllib2庫，在python3中，urllib2合併到urllib庫中,我們爬取網頁的時候，經常用到這個庫，升級合併後，模塊中包的位置變化的地方較多。

　　3. 區別：

　　在python2中使用import urllib2————對應的，在python3中會使用import urllib.request,urllib.error;

　　在python2中使用import urllib————對應的，在python3中會使用import urllib.request,urllib.error,urllib.parse;

　　在python2中使用import urlparse————對應的，在python3中會使用import urllib.parse;

　　在python2中使用urllib2.urlopen————對應的，在python3中會使用urllib.request.urlopen;

　　在python2中使用urllib.urlencode————對應的，在python3中會使用urllib.parse.urlencode;

　　在python2中使用urllib.quote————對應的，在python3中會使用urllib.request.quote;

　　在python2中使用cookielib.CookieJar————對應的，在python3中會使用http.CookieJar;

　　在python2中使用urllib2.Request————對應的，在python3中會使用urllib.request.Request

　　以上就是urllib相關模塊從python2到python3的常見一些變化

　　三、urllib兩個常用模塊：urllib.request，urllib.parse

　　1. urllib.request.urlopen(url, data=None, proxies=None)：它可以創建一個表示遠程url的類文件對象，然後我們可以像對本地文件一樣，用同樣的方法去操作這個類文件對象以此獲取遠程數據。

　　import urllib.request

　　url = "https://www.baidu.com/"

　　# response：是一個文件

　　response = urllib.request.urlopen(url=url)

　　print(response.read().decode())

　　返回結果===》

　　url：遠程數據的路徑，一般是網址;

　　data：以post方式提交到url的數據，如果要傳必須傳 bytes(字節流)類型的，如果是一個字典，可以先用 urllib.parse 模塊裏的 urlencode() 編碼;

　　proxies用於設置代理;

　　1. urlopen返回一個類文件對象(fd)，它提供瞭如下方法：

　　(I)read()：讀取相應內容，內容是字節類型;

　　(II)geturl()：獲取請求的url

　　示例：

　　print(response.geturl())

　　結果：

　　https://www.baidu.com/

　　(III)getheaders()：獲取頭部信息，列表裏面有元組

　　示例：

　　print(response.getheaders())

　　結果：

　　[('Accept-Ranges', 'bytes'), ('Cache-Control', 'no-cache'), ('Content-Length', '227'), ('Content-Type', 'text/html'), ('Date', 'Sat, 30 Nov 2019 15:32:47 GMT'), ('P3p', 'CP=" OTI DSP COR IVA OUR IND COM "'), ('P3p', 'CP=" OTI DSP COR IVA OUR IND COM "'), ('Pragma', 'no-cache'), ('Server', 'BWS/1.1'), ('Set-Cookie', 'BD_NOT_HTTPS=1; path=/; Max-Age=300'), ('Set-Cookie', 'BIDUPSID=52DFB72BEBE10DAD15531561E0516914; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2147483647; path=/; domain=.baidu.com'), ('Set-Cookie', 'PSTM=1575127967; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2147483647; path=/; domain=.baidu.com'), ('Set-Cookie', 'BAIDUID=52DFB72BEBE10DADB9398376B7470E3A:FG=1; max-age=31536000; expires=Sun, 29-Nov-20 15:32:47 GMT; domain=.baidu.com; path=/; version=1; comment=bd'), ('Strict-Transport-Security', 'max-age=0'), ('Traceid', '1575127967028891188210707054848444292954'), ('X-Ua-Compatible', 'IE=Edge,chrome=1'), ('Connection', 'close')]

　　(IV)getcode()：獲取狀態碼

　　示例：

　　print(response.getcode())

　　結果：

　　200

　　(V)readlines()：按行讀取，返回列表，都是字節類型

　　示例：

　　print(response.readlines())

　　結果：

　　[b'\r\n', b'\r\n', b'\t\r\n', b'\r\n', b'\r\n', b'\t\r\n', b'\r\n', b'']

　　註釋：“\b”在Python中表示二進制

　　【注意】像1和5這種返回是“字節類型(二進制)”都要進行解碼才能顯示出來

　　2. urllib.request.Request(url, headers, data)：參數和urllib.request.urlopen()函數一樣，一個請求不僅僅只有url，還要有Headers等信息，這時我們把Request()用於包裝請求頭，返回一個請求頭，可以作爲urllib.request.urlopen()的參數。

　　示例：鄭州人流醫院 http://mobile.zzzzyy120.com/

　　import urllib.request

　　headers = {

　　'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) '

　　'AppleWebKit/537.36 (KHTML, like Ge'

　　'cko) Chrome/71.0.3578.98 Safari/537.36'

　　}

　　url = "https://www.baidu.com/"

　　request = urllib.request.Request(url=url, headers=headers)

　　response = urllib.request.urlopen(request)

　　print(response.getcode())

　　結果：

　　200

　　3. urllib.parse.quote()：url編碼函數，將中文進行轉化爲%xxx

　　示例：

　　import urllib.parse

　　url = "小編是大帥哥!"

　　result = urllib.parse.quote(url)

　　print(result)

　　結果：

　　%E5%B0%8F%E7%BC%96%E6%98%AF%E5%A4%A7%E5%B8%85%E5%93%A5%EF%BC%81

　　4. urllib.parse.unquote()：url解碼函數，將%xxx進行轉化爲中文

　　示例：

　　import urllib.parse

　　string = "%E5%B0%8F%E7%BC%96%E6%98%AF%E5%A4%A7%E5%B8%85%E5%93%A5%EF%BC%81"

　　result = urllib.parse.unquote(string)

　　print(result)

　　結果：

　　小編是大帥哥!

　　5. urllib.parse.urlencode()：給一個字典，將字典拼接爲query_string，並且實現了編碼的功能

　　示例：

　　import urllib.parse

　　data = {

　　'name': 'Alien',

　　'age': '20',

　　'address': 'Chinese'

　　}

　　result = urllib.parse.urlencode(data)

　　print(result)

　　結果：

　　name=Alien&age=20&address=Chinese

　　四、字符串與二進制之間的轉換：

　　encode(encoding=None)：字符串 ===》二進制，參數encoding默認是“utf-8”;

　　decode(encoding=Node)：二進制 ===》字符串，參數encoding默認是“utf-8”;

　　要是傳encoding的值大多數也是“gbk”

　　Python打開文件時也有編碼設置

　　open("文件名", "w", encoding='utf8')

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Python的while循環

1.while循環的格式 while 條件: 條件滿足時，做的事情1 條件滿足時，做的事情2 條件滿足時，做的事情3 ...(省略)... demo

2023-10-10 11:37:31

python初識第二天

認識現實世界與虛擬世界的橋樑感受python帶來的魔力數據類型 Python裏，最常用的數據類型有三種——字符串(str)、整數(int)和浮點數(float) 字符串，字符串英文string，簡寫str 字符串的識別方式非常簡單—

2023-02-01 22:01:30

Python 的十大特性

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

Rupam Choudhary

2021-12-16 16:04:03

Python開發工程師[金融方向] Remote/Singapore (20k - 45k)

簡單介紹：要做的事：同交易員一起開發交易相關係統；能力要求：能獨立解決問題，完成項目開發，有較強的學習能力（技術和業務）品格正直，較強的心裏承壓能力；職業前景：能提供給你完全不同於互聯網公司的報酬上限，職業途徑；與一流交易員溝通機會，瞭解他

2021-12-09 17:53:05

JavaScript 瀏覽器統治地位不保？Python 有望取代

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-12-02 17:58:57

懶人暢聽網，有聲小說類目數據採集，多線程速採案例，Python爬蟲120例之23例

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

梦想橡皮擦

2021-11-23 11:18:54

令人不悅的–requests.exceptions.ProxyError

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-11-19 18:03:59

誰有粉？就爬誰！他粉多，就爬他！Python 多線程採集 260000+ 粉絲數據

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

梦想橡皮擦

2021-11-19 11:53:49

PHP正在“殺死”Python

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-11-11 15:58:55

2021年Python的好與壞

{"type":"doc","content":[{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"摘要"}]},{"t

2021-11-11 10:53:54

如何使用Python進行超參調參和調優

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

Nikola M. Zivkovic

2021-10-29 10:13:57

許式偉：Go+ Together丨Go+ 1.0 發佈會乾貨分享

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-10-19 18:18:55

這篇 python 文章，是過去你錯過的 python 細節知識點，滾雪球第4季第15篇

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

梦想橡皮擦

2021-10-15 16:03:54

1. 滾雪球學Python第四季開啓，一需三喫，Python 函數式編程初識，面向過程，面向對象，函數式

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

梦想橡皮擦

2021-10-14 10:33:53

微信迴應用戶相冊問題；IBM 強制員工打疫苗；Win 11、Android 12正式發佈；Facebook 宕機 6 小時；喬布斯去世十週年；微軟開放第三方商店入駐

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-10-11 09:03:55

24小時熱門文章

最新文章

最新評論文章