Python 爬蟲學習筆記(1) 爬蟲原理及基礎知識

爬蟲原理

爬蟲是機器模仿用戶操作,並批量獲取數據。通常是抓取網頁數據。

基礎知識

http

HTTP是一種無狀態的協議,無狀態是指Web瀏覽器和Web服務器之間不需要建立持久的連接。由於這一特性,http很難保存用戶信息,比如,用戶前面訪問的頁面,以及用戶登錄的信息,爲了更方便客戶端與服務器數據的交互,引入了cookie或者session,去維繫客戶端與服務器之間的狀態同步,cookie存在客戶端的硬盤中,session則以sessionID存客戶端的硬盤中,session中的數據存在服務器中,cookie的存儲容量爲4kb,session不限。

HTTP遵循請求(Request)/應答(Response)模型。Web瀏覽器向Web服務器發送請求,Web服務器處理請求並返回適當的應答。

http請求方式

http請求屬於應用層,在http請求之前,要進行TCP連接,即三次握手。客戶端和服務器要確保雙方都有接受和發送數據的能力,在三次握手的過程中,客服端和服務器相互之前發送的報文都是不帶數據的,帶數據的報文只能是在建立連接之後的。

HTTP1.0定義了三種請求方法: GET, POST 和 HEAD方法。
HTTP1.1新增了五種請求方法:OPTIONS, PUT, DELETE, TRACE 和 CONNECT 方法。

以下是這八種方法的簡介:
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章