一个程序员的周末还是挺无聊的,所以闲来无事写个爬虫,爬点有意思的东西,你懂得。
因为电脑重做系统,之前的环境都得重新配,因为页面内容的特殊性,需要通过js渲染才能够看到,所以需要selenium+phantomjs的配合才能够完成爬虫。然而,当我下载phantomjs以及selenium后,却告诉我,最新版的selenium不再支持phantomjs,请换headless的firefox或者chrome。没有办法,人家抛弃phantomjs了,因为本机没有chrome,干脆就选用firefox。
1.selenium调用firefox接口时,需要中间件geckodriver,不然会报错
下载地址:https://github.com/mozilla/geckodriver/releases
根据自己的操作系统下载对应的文件,解压之后将可执行文件放在/usr/bin (只针对linux系统)
2.配置headless
看网络教程使用:set_headless,发现已经不允许了,提示需要setter来进行配置
from selenium import webdriver
from selenium.webdriver import FirefoxOptions
options = FirefoxOptions()
options.add_argument('--headless')
dr = webdriver.Firefox(firefox_options=options)
dr.get("https://www.baidu.com")
print(dr.current_url)
3.完成
这样就可以使用headless的firefox了,然后,嘿嘿嘿。