从phantomjs到firefox--headless

一个程序员的周末还是挺无聊的,所以闲来无事写个爬虫,爬点有意思的东西,你懂得。

因为电脑重做系统,之前的环境都得重新配,因为页面内容的特殊性,需要通过js渲染才能够看到,所以需要selenium+phantomjs的配合才能够完成爬虫。然而,当我下载phantomjs以及selenium后,却告诉我,最新版的selenium不再支持phantomjs,请换headless的firefox或者chrome。没有办法,人家抛弃phantomjs了,因为本机没有chrome,干脆就选用firefox。

1.selenium调用firefox接口时,需要中间件geckodriver,不然会报错

下载地址:https://github.com/mozilla/geckodriver/releases

根据自己的操作系统下载对应的文件,解压之后将可执行文件放在/usr/bin (只针对linux系统)

2.配置headless

看网络教程使用:set_headless,发现已经不允许了,提示需要setter来进行配置

from selenium import webdriver
from selenium.webdriver import FirefoxOptions

options = FirefoxOptions()
options.add_argument('--headless')
dr = webdriver.Firefox(firefox_options=options)
dr.get("https://www.baidu.com")
print(dr.current_url)

3.完成

这样就可以使用headless的firefox了,然后,嘿嘿嘿。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章