自媒體用戶採集之(一)百家號採集

最近幾年一直在做數據採集的工作,發現現在數據越來越難以採集了。尤其是最近兩年自媒體起來以後,好多數據都無法採集全。比如最難處理的就數今日頭條了,然後是百家號、大風號啊這些自媒體。

以後要是想要把數據採集全,看來媒體號的採集已經是不可避免的啦。今天介紹一下百家號用戶的大致採集過程:

1:收集搜索百家號信息的關鍵詞。可以分爲三類關鍵詞:單個字、兩個字的詞組和三個字的詞組;


2:通過“關鍵詞+site”的方式,獲取該關鍵詞的百家號數據URL地址,並存入數據庫;

3:讀取存儲的URL,下載源碼,獲取源碼中的appId值,該值可以任務是百家號的唯一ID。組合百家號首頁地址:https://author.baidu.com/home/appId


4:通過首頁地址(https://author.baidu.com/home/appId),下載源碼,獲取抓取粉絲數據時需要的uk參數; 


5:通過連接:https://mbd.baidu.com/webpage?jump=fans&type=subscribe&action=personaljumpfanlist&uk=獲取的uk值&data[limit]=50&data[pn]=翻頁數值,獲取粉絲數據。此時獲取的百家號用戶沒有appId值,但是有獲取粉絲需要的uk值;


6:通過首頁地址,獲取一篇文章的連接,下載該文章源碼,從而獲取appId值;

在上面第二步進行"關鍵詞+site"時,一定的在請求中添加cookie,否則返回碼爲403。獲取方式如下圖所示:

cookie可以是任何一次搜索的cookie均可,而且有效期挺長,具體時間還真沒注意,兩週應該是有的。


本文分享自微信公衆號 - 十點數據(crawler-small-gun)。
如有侵權,請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章