自媒体用户采集之（一）百家号采集

原創

2021-01-30 09:45

最近几年一直在做数据采集的工作，发现现在数据越来越难以采集了。尤其是最近两年自媒体起来以后，好多数据都无法采集全。比如最难处理的就数今日头条了，然后是百家号、大风号啊这些自媒体。

以后要是想要把数据采集全，看来媒体号的采集已经是不可避免的啦。今天介绍一下百家号用户的大致采集过程：

1：收集搜索百家号信息的关键词。可以分为三类关键词：单个字、两个字的词组和三个字的词组；

2：通过“关键词+site”的方式，获取该关键词的百家号数据URL地址，并存入数据库；

3：读取存储的URL，下载源码，获取源码中的appId值，该值可以任务是百家号的唯一ID。组合百家号首页地址：https://author.baidu.com/home/appId

4：通过首页地址(https://author.baidu.com/home/appId),下载源码，获取抓取粉丝数据时需要的uk参数；

5：通过连接：https://mbd.baidu.com/webpage?jump=fans&type=subscribe&action=personaljumpfanlist&uk=获取的uk值&data[limit]=50&data[pn]=翻页数值，获取粉丝数据。此时获取的百家号用户没有appId值，但是有获取粉丝需要的uk值；

6：通过首页地址，获取一篇文章的连接，下载该文章源码，从而获取appId值；

在上面第二步进行"关键词+site"时，一定的在请求中添加cookie，否则返回码为403。获取方式如下图所示：

cookie可以是任何一次搜索的cookie均可，而且有效期挺长，具体时间还真没注意，两周应该是有的。

本文分享自微信公众号 - 十点数据（crawler-small-gun）。
如有侵权，请联系 [email protected] 删除。
本文参与“OSC源创计划”，欢迎正在阅读的你也加入，一起分享。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

自媒体用户采集之（一）百家号采集

技術無界，爬蟲有邊界

爬蟲系列之Selenium 庫學習

解決Python3.6中PyKeyboard插件無法輸入中文字符的問題

各地援助湖北醫療隊彙總

自媒體用戶採集之（一）百家號採集

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結