Python爬蟲流程一、基本流程二、Request請求三、Response響應

原創

2021-05-22 23:14

本文參考：爬蟲 - 基本介紹、流程總結

一、基本流程

1.發起請求

二、Request請求

2.1 請求方式

常用的請求方式：GET，POST （其他請求方式：HEAD，PUT，DELETE，OPTHONS ）
post與get請求最終都會拼接成這種形式：k1=xxx&k2=yyy&k3=zzz
post請求的參數放在請求體內：可用瀏覽器查看，存放於form data內
get請求的參數直接放在url後

2.2 請求url

url全稱統一資源定位符，如一個網頁文檔，一張圖片一個視頻等都可以用url唯一來確定
url編碼：https://www.baidu.com/s?wd=圖片；圖片會被編碼
網頁的加載過程：加載一個網頁，通常都是先加載document文檔，在解析document文檔的時候，遇到鏈接，則針對超鏈接發起下載圖片的請求

2.3 請求頭

User-agent：請求頭中如果沒有user-agent客戶端配置；服務端可能將你當做一個非法用戶
host
cookie ：cookie用來保存登錄信息

2.4 請求體

get 請求方式，請求體內沒有內容
post請求方式，請求體是format data等

三、Response響應

響應狀態
200：代表成功
301：代表跳轉
404：文件不存在
403：權限
502：服務器錯誤
Respone header
set-cookie：可能有多個，是來告訴瀏覽器，把cookie保存下來
preview就是網頁源代碼
最主要的部分，包含了請求資源的內容；如網頁html，圖片，二進制數據等

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

常見UserAgent整理

前言 UserAgent作爲客戶端與服務器之間交互的重要標識，對於瞭解用戶設備信息、優化用戶體驗以及網站或應用的兼容性測試等方面都具有重要的意義。通過解析不同的UserAgent，我們可以更好地理解用戶的需求和習慣，提供更個性化、優質的服務

2024-04-20 14:23:32

vscode 的數據庫可視化插件

https://blog.csdn.net/youyudehan/article/details/133357915

張博的博客

2024-04-20 14:21:12

【Python】安裝配置gym

gym是python中的一個強化學習環境，想要完整配置並跑起來坑還是比較多的。下面記錄一下Windows完整安裝過程，Linux下過程基本類似。 1. 執行pip install gym直接安裝的是0.26.2版本，網上常見的代碼無法兼容

2024-04-20 14:12:21

十六進制字符串每隔32個字母換行顯示

//每32個字節換行打印 public static void formatPrint(String hexStr){ int no = 0; int length = hexStr.length(); for (

2024-04-20 14:11:11

前端使用 Konva 實現可視化設計器（6）

請大家動動小手，給我一個免費的 Star 吧~ 這一章處理一下複製、粘貼、刪除、畫布歸位、層次調整，通過右鍵菜單控制。 github源碼 gitee源碼示例地址複製粘貼複製粘貼（通過快捷鍵） // 複製暫存 pasteC

2024-04-20 14:09:11

遠程管理HP筆記本

http://t.csdnimg.cn/A8JZl

2024-04-20 14:07:01

使用純c#在本地部署多模態模型，讓本地模型也可以理解圖像

之前曾經分享過純c#運行開源本地大模型Mixtral-8x7B 當時使用的是llamasharp這個庫和Mixtral的模型在本地部署和推理，前段時間我看到llamasharp更新到了0.11.1版本，可以支持今年2月份開源的 llava-

2024-04-20 14:06:31

ROS2筆記6--ROS2常用命令工具

1、ros2 pkg create 功能：創建功能包，創建時指定包名、編譯方式、依賴項等格式：ros2 pkg create --build-type <ament_python> <pkg_name> ros2 pkg create :

2024-04-20 14:04:30

HttpClient 總是被添加traceparent 請求頭

最近在項目中發現，HttpClient中調用某Api總是出現403的異常，自己使用postman 調用即沒有問題，經排查是HttpClient 會自動添加traceparent請求頭 Accept-Encoding: gzip User-

2024-04-20 14:02:50

web server apache tomcat11-10-Class Loader

前言整理這個官方翻譯的系列，原因是網上大部分的 tomcat 版本比較舊，此版本爲 v11 最新的版本。開源項目從零手寫實現 tomcat minicat 別稱【嗅虎】心有猛虎，輕嗅薔薇。系列文章 web server apac

2024-04-20 14:00:50

web server apache tomcat11-08-JNDI Resources

前言整理這個官方翻譯的系列，原因是網上大部分的 tomcat 版本比較舊，此版本爲 v11 最新的版本。開源項目從零手寫實現 tomcat minicat 別稱【嗅虎】心有猛虎，輕嗅薔薇。系列文章 web server apac

2024-04-20 14:00:50

IIS 執行此操作時出錯。詳細信息:web.config 錯誤，.net core項目

一、IIS 執行此操作時出錯。詳細信息:web.config 錯誤，.net core項目運行報錯錯誤信息提示的很明確：IIS Web Core模塊問題二、解析： IIS下報錯，但是直接啓動exe文件可以正常運行。

2024-04-20 13:59:40

體系化帶你全面認識 Nginx ！

前言作爲一名前端開發人員，你是不是經常碰到領導讓你上服務器去修改 Nginx 配置，然而你會以“我是前端，這個我不會”爲理由搪塞過去呢！今天就讓我們一起告別這種尷尬，向“真正”的程序員邁進！！！如果本文對你有所幫助，請點個👍 👍 👍

2024-04-20 13:52:49

在路上階段總結之反對本本主義

今天把一個客戶教育了。教育之後，發現自己被自己教育了。事情是這樣的，客戶提出來一個產品，讓我評估一下工作量。我接連問了客戶幾個需求方面的問題。發現該客戶一臉懵逼，他對自己規劃的產品根本沒什麼深入瞭解。不懂市場定位，不懂具體的技術風

2024-04-20 13:51:58

上海法院訴訟自如電費欺詐維權一審勝訴 All In One

上海法院訴訟自如電費欺詐維權一審勝訴 All In One 依法維權作爲一個法律新手，從閱讀學習有關法律法規，收集證據，法律諮詢, 立案申請，法院受理，整理提交證據, 法院開庭，法庭辯論, 歷時幾個月的努力和耐心等待，最終贏得的一審的

2024-04-20 13:49:48

24小時熱門文章

最新文章

最新評論文章