python爬蟲系列——requests庫

前言:

           前一篇文章中,我們學習了怎麼查看保存在網頁中的信息,但要怎麼把這些信息從網上抓取下來呢?接下來我們就來解決這個問題。讓我們一起走進requests。

 

一   requests 簡介

          Requests是用python語言基於urllib編寫的,採用的是Apache2 Licensed開源協議的HTTP庫,Requests它會比urllib更加方便,Requests 是以 PEP 20 的箴言爲中心開發的

  1. Beautiful is better than ugly.(美麗優於醜陋)
  2. Explicit is better than implicit.(直白優於含蓄)
  3. Simple is better than complex.(簡單優於複雜)
  4. Complex is better than complicated.(複雜優於繁瑣)
  5. Readability counts.(可讀性很重要)

對於 Requests 所有的貢獻都應牢記這些重要的準則。

 

二  安裝

requests 的安裝有兩種方式

第一種:pip 安裝

打開cmd,輸入下列命令

pip install requests

第二種,whl 文件安裝

從這個鏈接下載對應的requests 的whl 文件,然後在命令行窗口輸入下列命令

pip install 'whl文件路徑'

推薦使用第一種安裝方式。

二   requests 的基本功能介紹

在使用requests時候,第一步要做的就是在文件的頭部到導入requests庫

import requests

2.1 功能總結

get: 用於獲取網頁信息,以百度首頁爲例,獲取百度首頁的源代碼

r = requests.get("http://baidu.com")

這樣我們就輕易的獲得了網頁的源代碼。接下來我們可以通過狀態碼來看下是否成功了

print(r.status_code)

可以看到返回的是

200

那麼我們就成功的獲取了網頁的源代碼

那怎麼查看獲取到的源代碼呢?輸入下面的命令就可以了

print(r.text)

因此,獲取百度搜索首頁源代碼的程序如下:

import requests

r = requests.get("http://www.baidu.com")

print(r.status_code)                  //打印狀態碼

if(r.status_code == 200):
    print(len(r.text))                //打印長度
    print(r.text)                     //將網頁打印出來

requests 還有其他功能,現階段相對於get 功能來說,用的不是很多,等到後面需要用到的時候再進行詳細介紹,這裏製作簡單介紹。

import requests
requests.post("http://httpbin.org/post")
requests.put("http://httpbin.org/put")
requests.delete("http://httpbin.org/delete")
requests.head("http://httpbin.org/get")
requests.options("http://httpbin.org/get")

這個系列文章也會在微信公衆號,同步更新,歡迎關注。

                                                             

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章