自媒体用户采集之(一)百家号采集

最近几年一直在做数据采集的工作,发现现在数据越来越难以采集了。尤其是最近两年自媒体起来以后,好多数据都无法采集全。比如最难处理的就数今日头条了,然后是百家号、大风号啊这些自媒体。

以后要是想要把数据采集全,看来媒体号的采集已经是不可避免的啦。今天介绍一下百家号用户的大致采集过程:

1:收集搜索百家号信息的关键词。可以分为三类关键词:单个字、两个字的词组和三个字的词组;


2:通过“关键词+site”的方式,获取该关键词的百家号数据URL地址,并存入数据库;

3:读取存储的URL,下载源码,获取源码中的appId值,该值可以任务是百家号的唯一ID。组合百家号首页地址:https://author.baidu.com/home/appId


4:通过首页地址(https://author.baidu.com/home/appId),下载源码,获取抓取粉丝数据时需要的uk参数; 


5:通过连接:https://mbd.baidu.com/webpage?jump=fans&type=subscribe&action=personaljumpfanlist&uk=获取的uk值&data[limit]=50&data[pn]=翻页数值,获取粉丝数据。此时获取的百家号用户没有appId值,但是有获取粉丝需要的uk值;


6:通过首页地址,获取一篇文章的连接,下载该文章源码,从而获取appId值;

在上面第二步进行"关键词+site"时,一定的在请求中添加cookie,否则返回码为403。获取方式如下图所示:

cookie可以是任何一次搜索的cookie均可,而且有效期挺长,具体时间还真没注意,两周应该是有的。


本文分享自微信公众号 - 十点数据(crawler-small-gun)。
如有侵权,请联系 [email protected] 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章