有的時候,我們會發現收藏的某個微信公衆號文章會被刪或者和諧了,尤其是對自己非常實用的文章,一定會後悔當初怎麼沒有複製或者備份下來。
單篇的公衆號文章要備份,隨便百度一下就能找到非常多方法,這裏就不多廢話了。
如果要備份某個公衆號的所有文章,這個就要費點功夫了。網上搜索了一下,免費付費的工具都有,評論效果也是不一而論,不好說。
其實原理比較說起來還是不難的,今天永恆君就來分享一下
備份某個公衆號的所有文章的思路方法。
以我自己的公衆號永恆君的百寶箱爲例了,原理是大致是這樣的:
抓包抓取微信客戶端的接口
使用Python請求微信接口獲取公衆號文章鏈接並下載
1、抓包抓取微信客戶端的接口
常見的抓包工具有Fiddler,charles等等,永恆君這裏用的是charles。
使用之前需要先進行一系列的配置,安裝證書,添加域名和host。否則獲取不到https接口數據,顯示unknown。
配置好後啓動,打開微信客戶端找到公衆號,進入文章列表可以看到發過的文章。
這樣可以抓取到公衆號文章接口數據了。
公衆號文章的接口地址如下:
/mp/profile_ext?action=getmsg&__biz=MzIzMTU2OTkwOQ==&f=json&offset=10&count=10&is_ok=1&scene=124&uin=MzY0MDY1OTU1&key=61633b3e6808122f2a8e656cab84fa561b091de04bff962f725a959bf7d4e91507cf2f369f5dd89c9346abc8a415882fc2a13b51777dc54fba05e79c2346af8c872d619e7b10b27d515745b96d3ddd0f5fb09083f3bba38b8814be5cd32ab159d4964f299b988d29e1fbbe15ae2aa9f3a572392a143c354ba86df0d29414a0ee
參數比較多,其中有用的參數爲:
__biz 是用戶和公衆號之間的唯一id
uin是用戶的id,這個是不變的
key 是請求的祕鑰,一段時間就會失效
offset 是偏移量
count 是每次請求的條數
通過上面的請求,就可以獲取公衆號文章的信息了,包括文章標題titile、文章地址content_url、閱讀原文地址source_url、封面cover、作者author,抓取這些就行了。
2、使用Python請求微信接口獲取公衆號文章鏈接並下載
有了上面的接口參數,就可以開始用Python請求獲取文章信息了。
這裏只抓取永恆君署名的原創文章,公衆號一共有大約230多篇原創,生成HTML文件3分鐘就全部下載下來了。
用瀏覽器打開就能看。
但是有個問題,html文件裏面的圖片需要聯網才能進行查看
所以永恆君把html文章再用python導出成PDF文檔。
導出PDF用的工具是wkhtmltopdf,這裏特別說一下,這個工具需要先下載安裝 wkhtmltopdf。
接着Python中安裝pdfkit庫,調用wkhtmltopdf就可以了。
因爲需要聯網獲取圖片,因此生成PDF會比較慢,耐心等待幾十分鐘之後,PDF文件也全部生成了。
PDF也可以用瀏覽器直接打開,比如這篇 這個統計家庭人口的公式有點厲害了~~~
如果覺得PDF文件數量太多了,也可以藉助pdf合併軟件,將所有的pdf合併成單獨的合集,目錄就以每個文件名命名,方便查找。
這樣就完美的把我公衆號的所有文章下載到本地了,有HTML和PDF格式。
以上獲取文章的代碼寫的很簡陋,還沒有做優化,不太方便分享出來,怕誤導大家。有需要的話可以聯繫我幫忙下載公衆號文章。
你可能還會想看:
抖音無水印視頻批量下載,這個工具讚了!
8月視頻號下載方法及工具,最新!(付費)
收藏 | 實用軟件工具彙總
電腦C盤嚴重不足?推薦兩個磁盤管理神器!
工具分享 | 讓你告別惱人的win10自動更新
這款神器能秒搜局域網電腦中的文件,真是想不到!
50000GB單機遊戲合集資源,手慢無!
收藏 | 分享三個抖音無水印視頻的下載方法
歡迎交流!