本文參考: 爬蟲 - 基本介紹、流程總結
一、基本流程
1.發起請求
二、Request請求
2.1 請求方式
常用的請求方式:GET,POST (其他請求方式:HEAD,PUT,DELETE,OPTHONS )
post與get請求最終都會拼接成這種形式:k1=xxx&k2=yyy&k3=zzz
post請求的參數放在請求體內: 可用瀏覽器查看,存放於form data內
get請求的參數直接放在url後
2.2 請求url
url全稱統一資源定位符,如一個網頁文檔,一張圖片 一個視頻等都可以用url唯一來確定
url編碼 :https://www.baidu.com/s?wd=圖片 ;圖片會被編碼
網頁的加載過程: 加載一個網頁,通常都是先加載document文檔, 在解析document文檔的時候,遇到鏈接,則針對超鏈接發起下載圖片的請求
2.3 請求頭
User-agent:請求頭中如果沒有user-agent客戶端配置;服務端可能將你當做一個非法用戶
host
cookie :cookie用來保存登錄信息
2.4 請求體
get 請求方式,請求體內沒有內容
post請求方式,請求體是format data等
三、Response響應
響應狀態
200:代表成功
301:代表跳轉
404:文件不存在
403:權限
502:服務器錯誤Respone header
set-cookie:可能有多個,是來告訴瀏覽器,把cookie保存下來preview就是網頁源代碼
最主要的部分,包含了請求資源的內容;如網頁html,圖片,二進制數據等