自媒體用戶採集之（一）百家號採集

原創

2021-01-30 09:45

最近幾年一直在做數據採集的工作，發現現在數據越來越難以採集了。尤其是最近兩年自媒體起來以後，好多數據都無法採集全。比如最難處理的就數今日頭條了，然後是百家號、大風號啊這些自媒體。

以後要是想要把數據採集全，看來媒體號的採集已經是不可避免的啦。今天介紹一下百家號用戶的大致採集過程：

1：收集搜索百家號信息的關鍵詞。可以分爲三類關鍵詞：單個字、兩個字的詞組和三個字的詞組；

2：通過“關鍵詞+site”的方式，獲取該關鍵詞的百家號數據URL地址，並存入數據庫；

3：讀取存儲的URL，下載源碼，獲取源碼中的appId值，該值可以任務是百家號的唯一ID。組合百家號首頁地址：https://author.baidu.com/home/appId

4：通過首頁地址(https://author.baidu.com/home/appId),下載源碼，獲取抓取粉絲數據時需要的uk參數；

5：通過連接：https://mbd.baidu.com/webpage?jump=fans&type=subscribe&action=personaljumpfanlist&uk=獲取的uk值&data[limit]=50&data[pn]=翻頁數值，獲取粉絲數據。此時獲取的百家號用戶沒有appId值，但是有獲取粉絲需要的uk值；

6：通過首頁地址，獲取一篇文章的連接，下載該文章源碼，從而獲取appId值；

在上面第二步進行"關鍵詞+site"時，一定的在請求中添加cookie，否則返回碼爲403。獲取方式如下圖所示：

cookie可以是任何一次搜索的cookie均可，而且有效期挺長，具體時間還真沒注意，兩週應該是有的。

本文分享自微信公衆號 - 十點數據（crawler-small-gun）。
如有侵權，請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”，歡迎正在閱讀的你也加入，一起分享。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

自媒體用戶採集之（一）百家號採集

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

free AI online tools All In One

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU啓動那些事（12.A）- uSDHC eMMC啓動時間(RT1170)

linux安裝cuda和cudnn

Mellanox網卡開啓SR-IOV

模擬手機設備：使用 Playwright 實現移動端自動化測試

HTML 00 Tutorial

全面系統的AI學習路徑，幫助普通人也能玩轉AI

從零開始：使用 Playwright 腳本錄製實現自動化測試

uni-app實現上拉加載

技術無界，爬蟲有邊界

爬蟲系列之Selenium 庫學習

解決Python3.6中PyKeyboard插件無法輸入中文字符的問題

各地援助湖北醫療隊彙總

自媒體用戶採集之（一）百家號採集

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結