記錄一次爬取知識星球的word文檔

加入了知識星球,星主之前發了很多的word文檔,如下圖
mark

一個一個的下載太麻煩,弄個python統一爬下來。

F12看下路徑和請求頭,如下
mark

用postman請求下接口,一切正常,能返回所有json信息。

下一步是獲取下拉到底部後,加載的更多信息。分析下請求,就是加了個end_time的參數,這個參數是當前頁最後一篇文章的創建時間。如下圖
mark

所以,只要拿到當前頁的最後一篇文章的創建時間,然後再去請求下一頁的內容即可。

第三部是獲取下載鏈接。發現是根據每篇文章的file_id去請求一個方法,得到下載地址。如下圖
mark

然後請求https://api.zsxq.com/v1.10/files/88242855454112/download_url 這個地址獲取下載地址,postman中請求返回如下
mark

裏面的download_url就是下載地址。

down_res = requests.get(download_url)

    if down_res.status_code == 200:
        with open( 'D:\\360極速瀏覽器下載\\temp\\'+title, 'wb') as fp:
            fp.write(down_res.content)
            fp.close()

搞下來就可以了。

附上源碼:鏈接:https://pan.baidu.com/s/1issjMq-v1gaYS5cqZGuCAw
提取碼:uqdz

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章