搜狗與微信app的公衆號文章採集方案對比

此文已在本人知乎號上首發: 如何利用爬蟲爬微信公衆號的內容? - DuHeZhe的回答 - 知乎

這裏說說我的總結。

如果只是採集公衆號文章,要求不是非常嚴格的話走搜狗就可以了,這種方案成本低也比較簡單,但缺點也很明顯,就是臨時文章鏈接,如果要轉成永久鏈接,還是得走app接口。

另一種方案就是從微信app本身採集,這種採集成本會大不少,但能採集到的數據種類也多,包含不限於:歷史頁文章,閱讀點贊數,評論等。

爲了直觀一點,我做了個圖對比從搜狗和微信App採集的兩種方案。

 

ps: 現在從搜狗進入的文章歷史頁現在是空的,不確定什麼時候恢復,不過文章搜索接口是正常的。

這兩種方案我自己都在用,也提供封裝好的接口,具體需求會根據成本以及場景來選擇用哪一種

簡單一句話總結就是,搜狗有的微信App有,搜狗沒有的微信App也有,但微信方案不論從軟成本還是硬成本,都比搜狗方案大了不少。

題外話,圖中提到了微信裏的搜索接口,我自己已經實現了,可拿到搜公衆號和文章的返回數據,僅僅作爲一種實踐吧,因爲這個接口的使用量並不多,所以並沒有封裝好開放出來,如果有需要的可以單獨聯繫我。很多人可能覺得采集搜索接口不太可能,因爲這個數據走的根本就不是http協議。但我想說的是,有時候採集數據並不非得在請求中攔截,方案很多,但成本也會變得很大就是了(開發成本與線上成本)。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章