GitHub 微信公衆號爬蟲推薦

GitHub 微信公衆號爬蟲推薦

本文推薦 GitHub 微信公衆號爬蟲article_spider

微信公衆號爬蟲有別於一般的網頁爬蟲,由於是一個相對封閉的內容平臺,入口比較少,所以難度就有點大了。大概查找了一下,發覺基本上不能自動化的,無論是用 Selenium ,抓包工具(Fiddler);還是從搜狗微信搜索,”管理”-“素材管理”中的“公衆號查找”,都只能是實現半自動化。而且有很多文章介紹的方法或是從 GitHub 上找到的大多源碼都不能用了。

最近也有保存微信公衆號歷史文章的需求,想着由於時間關係以及難度關係就不重複造輪子了。幸運的是從 GitHub 上找到了一個可用的源碼倉庫article_spider,(地址是:https://github.com/f111fei/article_spider)在此感謝源碼作者。

article_spider 已經實現以下功能:

  1. 爬取公衆號所有文章數據
  2. 支持自動識別驗證碼
  3. 離線數據庫,包含文章原始信息,文章圖片
  4. 微信文章預覽

article_spider 的 README 寫得很明瞭,除了開箱即用,還是源碼學習的好材料。

如果你有保存微信公衆號歷史文章的需求或是想學習微信公衆號爬蟲,趕緊嘗試下article_spider 吧:https://github.com/f111fei/article_spider

article_spider

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章