Python爬蟲入門庫之requests庫的常用操作

原創

Steve_Tang1998

2020-05-04 16:48

requests作爲爬蟲入門庫，我在學習過程中感覺操作比較簡單
本文將從下面幾個方面來介紹其常見功能

1.如何使用兩種請求get和post(其他請求不做說明)
2.如何僞裝自身
3.如何對返回信息進行處理

首先，使用前需要導入庫

import requests

get和post請求的使用

URL = 'https://www.baidu.com/'
rGet = requests.get(URL)
rPost = requests.post(URL, data={'wd': '多人運動'})

那麼如何判斷是否請求成功呢？

print(rGet.status_code)
print(rPost.status_code)

看下圖，當status_code=200的時候，就說明請求成功

如果要進行多參數的請求

keywords = {'key1': 'value1', 'key2': 'value2'}
r = requests.get(URL, params = keywords)

如何僞裝自身(只說明頭僞裝，還有IP池等防禁IP的方法)
搜索界面摁F12，點擊Network，下面就會有Request Headers，點開
看到下面紅框的東西了嗎，這個就是你瀏覽器在訪問這個頁面的時候，告訴服務器：“我是誰”
接下來我們就在代碼中告訴瀏覽器“我是誰”
這裏只更改了一個參數，User-Agent

 header = {
    'User-Agent':
    'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36'
}
rGet = requests.get(URL, headers=header)

如果不僞裝，那麼你的頭可能是這樣的

服務器一看就知道你是偷渡客

最後當請求成功之後，就是返回信息的處理
輸出返回信息的文本，要先進行編碼轉換，當然如果本身就是utf-8,那麼中文就不會亂碼
這裏本身就是utf-8，只是爲了說明操作方式

rGet.encoding='utf-8'
print(rGet.text)

最後，text有了，獲取關鍵信息的方式最粗暴的方式就是正則表達式篩選，
但很不爽，對，就是不爽，之後我將介紹對text進行處理的python庫BeautifuSoup庫的使用
本文皆是在作者學習中所獲，有錯誤歡迎斧正。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Python爬蟲入門庫之requests庫的常用操作

[轉帖]使用NMT和pmap解決JVM資源泄漏問題原創

Python實現大麥網搶票的四大關鍵技術點解析

Python 安裝庫指令大全

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

一款開源的.NET程序集反編譯、編輯和調試神器

關於接口協議，你必須要知道這些！

2020年上半年數據庫系統工程師考試

基於 Milvus + LlamaIndex 實現高級 RAG

【2024-05-21】以茶會友

Python的turtle庫使用之科赫雪花繪製

華爲雲彈性服務器+寶塔控制面板搭建IP訪問站點與域名訪問站點，超詳細教程

Python爬蟲入門庫之selenium+chromedriver的組合拳來爬取鬥魚主播信息

Python爬蟲入門庫之requests庫的常用操作

Python爬蟲入門庫之BeautifulSoup庫的常見使用

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結