Python爬虫学习笔记(selenium+Headless)

selenium目前抛弃了之前使用的phantomanJS,改用Selenium+Headless的组合,解决JS渲染问题,不会有浏览器窗口弹出并且提升了执行速度,同时可以尽量规避网站对爬虫的审查(建议添加cookie并使用代理池)。使用时,首先应当安装selenium和webdriver,webdriver应当与当前Chrome浏览器版本一致才能正常使用,二者都建议使用最新版本。

下载webdriver chrome:
下载webdriver:http://chromedriver.storage.googleapis.com/index.html (注意与chrome浏览器的版本相对应),下载解压之后是一个.exe文件。
然后将chromedriver.exe文件放到python安装目录下的\Scripts下,再将chromedriver.exe文件放到C:\Program Files (x86)\Google\Chrome\Application目录下即可。

测试:打开并爬取百度首页

# -*- coding:utf-8 -*-
from selenium import webdriver

option = webdriver.ChromeOptions()
option.add_argument('headless')
driver = webdriver.Chrome(chrome_options=option)
driver.get('https://www.baidu.com/')
print(driver.title) #打印首页的title

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章