08Python爬蟲---正則和Cookie小結

(1)有時我們在進行字符串處理的時候,希望按自定義的規則進行處理,我們將這些規則稱爲模式。可以用正則表達式來描述這些自定義規則,正則表達式也稱爲模式表達式。

(2)在 Python中,一般我們會使用re模塊實現 Python正則表達式的功能。

(3)正則表達式中常見的原子有:普通字符作爲原子、非打印字符作爲原子、通用字符作爲原子、原子表。

(4)模式修正符,可以在不改變正則表達式的情況下,通過模式修正符改變正則表達式的含義,從而實現一些匹配結果的調整等功能

(5)我們訪問每一個互聯網頁面,都是通過HTP協議進行的,而HTTP協議是一個無狀態協議,所謂的無狀態協議即無法維持會話之間的狀態

(6)會話信息控制比較常用的方式有兩種:通過 Cookie保存會話信息、通過 Session保存會話信息。

(7)如果是通過 Session保存會話信息,會將對應的會話信息保存在服務器端,但是服務器端會給客戶端發 SessionID等信息,這些信息一般存在客戶端的 Cookie中,當然,如果客戶禁止了Cookie,也會通過其他方式存儲。但是目前來說,大部分的情況還是會將這一部分信息存到Cookie中。然後,用戶在訪問該網站其他網頁的時候,會從 Cookie中讀取這一部分信息,然後從服務器中的 Session中根據這一部分 Cookie信息檢索出該客戶端的所有會話信息,然後進行會話控制。顯然,使用 Session的方式來保存會話信息,大部分的時候,還是會用的 Cookie

(8)如果要使用 Python處理 Cookie,在 Python3中可以使用 cookiejar庫進行處理,而在Python2則可以使用 cookielib庫進行處理。

(9)如果要獲得真實的登錄地址,我們需要進行分析,分析方法主要有兩種,第一種方法是通過F12調出調試界面進行分析,第二種方法是使用工具軟件進行分析,常用的工具軟件有 Fiddler

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章