Python爬蟲流程 一、基本流程 二、Request請求 三、Response響應

本文參考: 爬蟲 - 基本介紹、流程總結

一、基本流程

1.發起請求

二、Request請求

2.1 請求方式

常用的請求方式:GET,POST (其他請求方式:HEAD,PUT,DELETE,OPTHONS )
post與get請求最終都會拼接成這種形式:k1=xxx&k2=yyy&k3=zzz
post請求的參數放在請求體內: 可用瀏覽器查看,存放於form data內
get請求的參數直接放在url後

2.2 請求url

url全稱統一資源定位符,如一個網頁文檔,一張圖片 一個視頻等都可以用url唯一來確定
url編碼 :https://www.baidu.com/s?wd=圖片 ;圖片會被編碼
網頁的加載過程: 加載一個網頁,通常都是先加載document文檔, 在解析document文檔的時候,遇到鏈接,則針對超鏈接發起下載圖片的請求

2.3 請求頭

User-agent:請求頭中如果沒有user-agent客戶端配置;服務端可能將你當做一個非法用戶
host
cookie :cookie用來保存登錄信息

2.4 請求體

get 請求方式,請求體內沒有內容
post請求方式,請求體是format data等

三、Response響應

  • 響應狀態
    200:代表成功
    301:代表跳轉
    404:文件不存在
    403:權限
    502:服務器錯誤

  • Respone header
    set-cookie:可能有多個,是來告訴瀏覽器,把cookie保存下來

  • preview就是網頁源代碼
    最主要的部分,包含了請求資源的內容;如網頁html,圖片,二進制數據等

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章