Python爬虫学习笔记（selenium+Headless）

原創

2020-06-24 05:08

selenium目前抛弃了之前使用的phantomanJS,改用Selenium+Headless的组合，解决JS渲染问题，不会有浏览器窗口弹出并且提升了执行速度，同时可以尽量规避网站对爬虫的审查（建议添加cookie并使用代理池）。使用时，首先应当安装selenium和webdriver,webdriver应当与当前Chrome浏览器版本一致才能正常使用，二者都建议使用最新版本。

下载webdriver chrome:
下载webdriver：http://chromedriver.storage.googleapis.com/index.html （注意与chrome浏览器的版本相对应），下载解压之后是一个.exe文件。
然后将chromedriver.exe文件放到python安装目录下的\Scripts下，再将chromedriver.exe文件放到C:\Program Files (x86)\Google\Chrome\Application目录下即可。

测试：打开并爬取百度首页

# -*- coding:utf-8 -*-
from selenium import webdriver

option = webdriver.ChromeOptions()
option.add_argument('headless')
driver = webdriver.Chrome(chrome_options=option)
driver.get('https://www.baidu.com/')
print(driver.title) #打印首页的title

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Python爬虫学习笔记（selenium+Headless）

使用c#强大的表达式树实现对象的深克隆之解决循环引用的问题

GPT-4o 引领人机交互新风向，向量数据库赛道沸腾了

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU启动那些事（12.A）- uSDHC eMMC启动时间(RT1170)

基于Ubuntu-22.04安装K8s-v1.28.2实验（二）使用kube-vip实现集群VIP访问

企业大模型如何成为自己数据的“百科全书”？

本地SSL证书过期输入命令在IIS自动生成

.NET周刊【5月第2期 2024-05-12】

基于Ubuntu-22.04安装K8s-v1.28.2实验（一）部署K8s

基于Ubuntu-22.04安装K8s-v1.28.2实验（三）数据卷挂载NFS（网络文件系统）

根据域名查询服务器的ip地址

SpringBoot使用thymleaf，加入版本控制和佈局版本控制的properties後報錯

SpringMVC報錯摘記

Python爬蟲學習筆記（圖形驗證碼的識別）

如何解決王者榮耀排位賽中的系統制裁

Java web開發中能夠幫(摸)助（魚）編（劃）碼（水）的工具

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結