操作步驟筆記,方便查看
文章目錄
一、網址有規律變化進行翻頁
北京人才網
第一頁鏈接:https://jobs.51job.com/beijing/p1/
第二頁鏈接:https://jobs.51job.com/beijing/p2/
爬取前5頁試一下
獲取前n頁,步長爲m的頁面,起始頁設置爲:
[1-n]或者[1-n:m]
例如:
www.0797rs.com/news/list-10–[1-5:2].html 獲取前5頁,步長爲2 即得到 1、3、5 頁
二、點擊翻頁器 爬取信息
網址不變 只有翻頁器 或者 沒有規律
以北京人才網爲例
北京人才網_北京最新人才招聘信息
第一頁鏈接:https://jobs.51job.com/beijing/p1/
第二頁鏈接:https://jobs.51job.com/beijing/p2
創建一個新的 “項目”
首先篩選出點擊翻頁器的鏈接
選擇完畢
三、點擊【加載更多】進行翻頁
以豆瓣電影爲例
保存
四、動態加載 翻頁(點擊翻頁器,URL不變)
動態加載 理解爲打開網頁時,所有數據已經加載完成的,只不過通過網頁手段分割成不同的頁。
以菜壩網爲例
http://www.cb023.com/#/store/allGoods/e465867e6a66066f620d35e810b36bbc
.
運行
五、爬取二級頁面內容
以小說網站爲例
頁碼變化
第一頁
http://search.zongheng.com/s?keyword=%E7%8E%84%E5%B9%BB&pageNo=1&sort=&isFromHuayu=
第二頁
http://search.zongheng.com/s?keyword=%E7%8E%84%E5%B9%BB&pageNo=2&sort=&isFromHuayu=
第三頁
http://search.zongheng.com/s?keyword=%E7%8E%84%E5%B9%BB&pageNo=3&sort=&isFromHuayu=
替換
運行