前言:
前一篇文章中,我們學習了怎麼查看保存在網頁中的信息,但要怎麼把這些信息從網上抓取下來呢?接下來我們就來解決這個問題。讓我們一起走進requests。
一 requests 簡介
Requests是用python語言基於urllib編寫的,採用的是Apache2 Licensed開源協議的HTTP庫,Requests它會比urllib更加方便,Requests 是以 PEP 20 的箴言爲中心開發的
- Beautiful is better than ugly.(美麗優於醜陋)
- Explicit is better than implicit.(直白優於含蓄)
- Simple is better than complex.(簡單優於複雜)
- Complex is better than complicated.(複雜優於繁瑣)
- Readability counts.(可讀性很重要)
對於 Requests 所有的貢獻都應牢記這些重要的準則。
二 安裝
requests 的安裝有兩種方式
第一種:pip 安裝
打開cmd,輸入下列命令
pip install requests
第二種,whl 文件安裝
從這個鏈接下載對應的requests 的whl 文件,然後在命令行窗口輸入下列命令
pip install 'whl文件路徑'
推薦使用第一種安裝方式。
二 requests 的基本功能介紹
在使用requests時候,第一步要做的就是在文件的頭部到導入requests庫
import requests
2.1 功能總結
get: 用於獲取網頁信息,以百度首頁爲例,獲取百度首頁的源代碼
r = requests.get("http://baidu.com")
這樣我們就輕易的獲得了網頁的源代碼。接下來我們可以通過狀態碼來看下是否成功了
print(r.status_code)
可以看到返回的是
200
那麼我們就成功的獲取了網頁的源代碼
那怎麼查看獲取到的源代碼呢?輸入下面的命令就可以了
print(r.text)
因此,獲取百度搜索首頁源代碼的程序如下:
import requests
r = requests.get("http://www.baidu.com")
print(r.status_code) //打印狀態碼
if(r.status_code == 200):
print(len(r.text)) //打印長度
print(r.text) //將網頁打印出來
requests 還有其他功能,現階段相對於get 功能來說,用的不是很多,等到後面需要用到的時候再進行詳細介紹,這裏製作簡單介紹。
import requests
requests.post("http://httpbin.org/post")
requests.put("http://httpbin.org/put")
requests.delete("http://httpbin.org/delete")
requests.head("http://httpbin.org/get")
requests.options("http://httpbin.org/get")
這個系列文章也會在微信公衆號,同步更新,歡迎關注。