爬虫入门之网页动态(二)

上一篇大概学习了如何解析网站,通过一些简单的find_all\get函数已经能够从html中获取一些跳转的网址。

再通过一轮新的request能够进入新网站进行解析,所有模型写好以后做一个for循环就能批量下载数据了。

 

理想是美好的,现实是残酷的,完成第一步获取网址以后,正准备下载数据,发现需要登录才能获取数据。

这一篇就准备来学习如何解决爬虫过程中需要登录才能爬数据的问题。

 

大致看到一种可行性方案是基于cookie的方式登录。

什么是cookie?简单介绍一下就是通过本地数据登录。

 

首先,需要获取到cookies,通过谷歌浏览器的代码,document.cookie,在console里面可以获取,然后选取需要的字段。

 

然后设置cookies,他的格式是这样的:'cookies':'........'就是字典形式,并不是一个字符串走到头。

 

—————————————————————————————————————————————————————————

 

以上问题结束以后发生了一些新的问题,我爬的网站用了一种网址不变的翻页技术,就是每一页的内容网址没有改变,这就给爬数据造成了很多问题。

我总不能每次就爬第一页的数据吧。

了解到这个问题是出在了Ajax上,这个ajax就是url网址不变,但是数据能够进来,其原因是什么我也没弄明白,但是通过看网页元素,大概明白了他虽然网址没变,但是元素的网址其实延长了,延长的部分包含了page的信息,所以你直接在request的时候用元素网址就能顺利完成翻页的操作了。

 

 

所以最最最基础的爬虫就这么完成了,虽然很慢,但是我需要的数据也不是那么海量的,设置一个time.sleep防止平台封号,一个晚上就能搞定一类数据。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章