Web Scraper

原創

卖山楂啦prss

2020-06-24 18:38

操作步骤笔记，方便查看

文章目录

一、网址有规律变化进行翻页

北京人才网

第一页链接：https://jobs.51job.com/beijing/p1/
第二页链接：https://jobs.51job.com/beijing/p2/

爬取前5页试一下

获取前n页，步长为m的页面，起始页设置为：
[1-n]或者[1-n:m]

例如：
www.0797rs.com/news/list-10–[1-5:2].html 获取前5页，步长为2 即得到 1、3、5 页

二、点击翻页器爬取信息

网址不变只有翻页器或者没有规律

以北京人才网为例

北京人才网_北京最新人才招聘信息

第一页链接：https://jobs.51job.com/beijing/p1/
第二页链接：https://jobs.51job.com/beijing/p2

创建一个新的 “项目”

首先筛选出点击翻页器的链接

选择完毕

三、点击【加载更多】进行翻页

以豆瓣电影为例

保存

四、动态加载翻页（点击翻页器，URL不变）

动态加载理解为打开网页时，所有数据已经加载完成的，只不过通过网页手段分割成不同的页。

以菜坝网为例
http://www.cb023.com/#/store/allGoods/e465867e6a66066f620d35e810b36bbc

.

运行

五、爬取二级页面内容

以小说网站为例

页码变化
第一页
http://search.zongheng.com/s?keyword=%E7%8E%84%E5%B9%BB&pageNo=1&sort=&isFromHuayu=
第二页
http://search.zongheng.com/s?keyword=%E7%8E%84%E5%B9%BB&pageNo=2&sort=&isFromHuayu=
第三页
http://search.zongheng.com/s?keyword=%E7%8E%84%E5%B9%BB&pageNo=3&sort=&isFromHuayu=

替换

运行

六、滚动加载 Element scroll down

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Python爬取QQ音乐评论数据

轉載自： CDA數據分析師文章目錄1、數據獲取2、數據處理3、數據可視化 1、數據獲取 https://y.qq.com/n/yqq/album/0009C3rp3Kfwg0.html#comment_box 評論區的內容是被

卖山楂啦prss

2020-06-24 18:38:28

Scrapy安装教程（Windows）

推薦自己的專欄：玩一玩爬蟲咯官方文檔：下載Scrapy 如果你的系統是MacOS或者Linux，不小心點進來了，請直接移步官方文檔如果你使用的是Anaconda：若是Windows環境使用pip安裝，請往下看文

2020-06-18 22:30:20

利用python爬取博客信息并保存在Excel中

只放代碼 import re,json,requests from lxml import etree import xlwt # 分頁 # 找頁碼變化的規律 for i in range(1,6): base_url

卖山楂啦prss

2020-06-16 08:20:45

逼疯反扒的爬虫利器Selenium(自动化测试工具) =￣ω￣= Python爬虫

文章目錄Selenium 簡介Selenium 部署Selenium使用方法啓動Selenium對瀏覽器的操作查找元素行爲鏈(模擬鼠標與鍵盤)保存網頁快照對cookie的操作頁面等待隱式等待顯式等待常用期望條件打開多窗口與切換窗口

2020-06-14 13:39:43

requests库使用方法(爬虫模拟登陆的三种方式) =￣ω￣= Python爬虫

文章目錄requestsrequests使用亂碼解決方式文本亂碼僞裝瀏覽器發送帶參請求實戰測試抓取百度貼吧胡蘿蔔周帶參post請求有道翻譯使用代理IPcookie 與 session爬蟲利用cookie與session模擬登陸方法

2020-06-14 13:39:43

一篇文章看懂如何对爬取的数据进行处理(正则,json,lxml,Beautiful Soup) =￣ω￣= Python爬虫

文章目錄數據處理Python中的正則表達式元字符重複匹配位置匹配預定意義字符常用正則表達式re庫re庫三大搜索方法flag匹配模式分組jsonPython的json庫XMLxpathxpath下載xpath的常用語法lxml庫Be

2020-06-14 13:39:33

scrapy如何在Request之间传递参数

class HelloSpider(BaseSpider): name = 'hellospider' start_urls = ( 'http://aaa.com/page1',

士心月月鸟

2020-06-13 18:47:27

网页图片批量获取（Python教程）

2020-05-07 20:38:40

爬虫框架Scrapy体验

CC_且听风吟

2020-04-29 23:01:24

Scrapy中间件如何使用?Scrapy如何设置代理和更换请求头?Scrapy进阶使用[IP池、随机请求头](基于scrapy2.0+编写) ๑乛◡乛๑ Scrapy框架使用方法

2020-04-25 01:43:37

分布式的Scrapy过于能打!十个resquests都顶不住! ๑乛◡乛๑ Scrapy框架使用方法

2020-04-25 01:43:37

Scrapy是什么?Scrapy怎么用?Scrapy基础使用(基于scrapy2.0+编写) ๑乛◡乛๑ Scrapy框架使用方法

2020-04-21 02:45:05

Scrapy是什么?Scrapy怎么用?Scrapy进阶使用[链接提取器、自动登录、图片(文件)下载器](基于scrapy2.0+编写) ๑乛◡乛๑ Scrapy框架使用方法

2020-04-21 02:45:05

Scrapy是什么?爬虫框架(Scrapy)简介、安装与启动(虚拟环境安装方法,pycharm安装报错解决方法) ๑乛◡乛๑ Scrapy框架使用方法

2020-04-21 02:45:05

想学爬虫吗？带你快速入门Scrapy

2020-04-10 03:38:27

24小時熱門文章

SQL优化-20231016

最新文章

最新評論文章