Web Scraper

操作步骤笔记,方便查看

一、网址有规律变化进行翻页

北京人才网

第一页链接:https://jobs.51job.com/beijing/p1/
第二页链接:https://jobs.51job.com/beijing/p2/

在这里插入图片描述
爬取前5页试一下

获取前n页,步长为m的页面,起始页设置为:
[1-n]或者[1-n:m]

例如:
www.0797rs.com/news/list-10–[1-5:2].html 获取前5页,步长为2 即得到 1、3、5 页

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述在这里插入图片描述

在这里插入图片描述在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

二、点击翻页器 爬取信息

网址不变 只有翻页器 或者 没有规律

以北京人才网为例

北京人才网_北京最新人才招聘信息

第一页链接:https://jobs.51job.com/beijing/p1/
第二页链接:https://jobs.51job.com/beijing/p2
在这里插入图片描述
在这里插入图片描述
创建一个新的 “项目”
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
首先筛选出点击翻页器的链接
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
选择完毕
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

三、点击【加载更多】进行翻页

以豆瓣电影为例
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
保存
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

四、动态加载 翻页(点击翻页器,URL不变)

动态加载 理解为打开网页时,所有数据已经加载完成的,只不过通过网页手段分割成不同的页。

以菜坝网为例
http://www.cb023.com/#/store/allGoods/e465867e6a66066f620d35e810b36bbc
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述.
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
运行

在这里插入图片描述

五、爬取二级页面内容

以小说网站为例

页码变化
第一页
http://search.zongheng.com/s?keyword=%E7%8E%84%E5%B9%BB&pageNo=1&sort=&isFromHuayu=
第二页
http://search.zongheng.com/s?keyword=%E7%8E%84%E5%B9%BB&pageNo=2&sort=&isFromHuayu=
第三页
http://search.zongheng.com/s?keyword=%E7%8E%84%E5%B9%BB&pageNo=3&sort=&isFromHuayu=
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
替换
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

运行
在这里插入图片描述

六、滚动加载 Element scroll down

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章