python爬虫系列之Session相关知识

作为爬虫工作者,日常工作中常常遇到采集的页面限制我们的访问,尤其在频繁刷新或者访问一个页面时会引起网站的一些列反爬措施。网站的反爬措施有很多,今天我们就来谈谈 Session 和 cookie 的在python爬虫中的相关知识。

关于cookie的基本知识之前分享了很多,关于Session这里可以好好的解释下,Session 就一个接口(HttpSession)即就是会话。它是用来维护一个客户端和服务器之间关联的一种技术。因为每个客户端都有自己的一个 Session 会话。在Session 会话中,我们经常用来保存用户登录之后的信息。这些用户登陆状态可以利用Cookie中的Session ID来标识。

cookie和Session一般会在网站的反爬中应用中比较常见。比如在访问某些网站的时候,是需要先进行登录才能进行下一步操作的。而在爬虫中模拟真实用户进行登陆有一下一些方式:

1、 爬虫代码里通过request.post里的参数data中,有自己的登录的账号信息。

2、访问页面的时候,从header是中找到cookie并复制,写到python脚本里的headers中,但是在使用过程中cookie的时效性也是需要考虑的。

3、通过session方法,是比较推荐的一种方式,比如python使用Keep-Alive保持相同代理IP进行采集,并进行状态判断,失败后重新发起。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章