selenium目前拋棄了之前使用的phantomanJS,改用Selenium+Headless的組合,解決JS渲染問題,不會有瀏覽器窗口彈出並且提升了執行速度,同時可以儘量規避網站對爬蟲的審查(建議添加cookie並使用代理池)。使用時,首先應當安裝selenium和webdriver,webdriver應當與當前Chrome瀏覽器版本一致才能正常使用,二者都建議使用最新版本。
下載webdriver chrome:
下載webdriver:http://chromedriver.storage.googleapis.com/index.html (注意與chrome瀏覽器的版本相對應),下載解壓之後是一個.exe文件。
然後將chromedriver.exe文件放到python安裝目錄下的\Scripts下,再將chromedriver.exe文件放到C:\Program Files (x86)\Google\Chrome\Application目錄下即可。
測試:打開並爬取百度首頁
# -*- coding:utf-8 -*- from selenium import webdriver option = webdriver.ChromeOptions() option.add_argument('headless') driver = webdriver.Chrome(chrome_options=option) driver.get('https://www.baidu.com/') print(driver.title) #打印首頁的title