python爬蟲系列之Session相關知識

作爲爬蟲工作者,日常工作中常常遇到採集的頁面限制我們的訪問,尤其在頻繁刷新或者訪問一個頁面時會引起網站的一些列反爬措施。網站的反爬措施有很多,今天我們就來談談 Session 和 cookie 的在python爬蟲中的相關知識。

關於cookie的基本知識之前分享了很多,關於Session這裏可以好好的解釋下,Session 就一個接口(HttpSession)即就是會話。它是用來維護一個客戶端和服務器之間關聯的一種技術。因爲每個客戶端都有自己的一個 Session 會話。在Session 會話中,我們經常用來保存用戶登錄之後的信息。這些用戶登陸狀態可以利用Cookie中的Session ID來標識。

cookie和Session一般會在網站的反爬中應用中比較常見。比如在訪問某些網站的時候,是需要先進行登錄才能進行下一步操作的。而在爬蟲中模擬真實用戶進行登陸有一下一些方式:

1、 爬蟲代碼裏通過request.post裏的參數data中,有自己的登錄的賬號信息。

2、訪問頁面的時候,從header是中找到cookie並複製,寫到python腳本里的headers中,但是在使用過程中cookie的時效性也是需要考慮的。

3、通過session方法,是比較推薦的一種方式,比如python使用Keep-Alive保持相同代理IP進行採集,並進行狀態判斷,失敗後重新發起。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章