回覆“書籍”即可獲贈Python從入門到進階共10本電子書
今天要跟大家分享一個小說爬取案例--------起點小說的小說下載。
在做這個案例之前,我們需要對其進行分析,
1.界面分析,如圖:
通過分析很容易就找到了我們的get請求參數,然後獲取相應頁面的小說名和鏈接:
獲取到數據之後,我們就隨機挑選一篇小說來進行下載,我們選第一篇,
然後打開它的文章目錄,可以看到是這樣的,如圖:
基本上這篇小說很長,可以看到它卷一和卷二是免費的,後面的收費,那麼今天我們就只爬免費的章節。
那麼我們現在開始分析網頁結構,如圖:
那麼,我們可以先把卷一的名字和章節數以及章節下的每個章節的名字都打印出來。
首先我們可以分析下這個網頁地址,如圖:
https://book.qidian.com/info/1014243481#Catalog
發覺前面的沒變,基本就是後面的變了,增加了一個info/1014243481#Catalog,下面開始分析:
info:信息的意思,
1014243481:小說對應的ID,
#Catalog:數據補全,無太大意義
因爲剛剛已經將文章鏈接的內容爬取出來,所以現在只需要拼接一個#Catalog 即可:
下面我們就可以對它發起請求然後在分析它的頁面了,首先發起get請求,按照前面的網頁分析結構來看,我們應該這樣寫:
可以看出,因爲這裏有異步加載,所以我們的請求不會一下子全部顯示出來,需要不斷的請求,當然最好加個延遲。
這樣我們就獲取到了這個頁面所有的小說,也可以這樣,因爲我們沒找接口,所以強行解析只能解析部分內容,但是也很全面了。如圖:
找的還算挺詳細,只不過沒有找接口時所拿到的數據那麼規範好看了。
------------------- End -------------------
往期精彩文章推薦:
歡迎大家點贊,留言,轉發,轉載,感謝大家的相伴與支持
想加入Python學習羣請在後臺回覆【入羣】
萬水千山總是情,點個【在看】行不行
/今日留言主題/
隨便說一兩句吧~
本文分享自微信公衆號 - Python爬蟲與數據挖掘(crawler_python)。
如有侵權,請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。