Python爬蟲學習筆記(selenium+Headless)

selenium目前拋棄了之前使用的phantomanJS,改用Selenium+Headless的組合,解決JS渲染問題,不會有瀏覽器窗口彈出並且提升了執行速度,同時可以儘量規避網站對爬蟲的審查(建議添加cookie並使用代理池)。使用時,首先應當安裝selenium和webdriver,webdriver應當與當前Chrome瀏覽器版本一致才能正常使用,二者都建議使用最新版本。

下載webdriver chrome:
下載webdriver:http://chromedriver.storage.googleapis.com/index.html (注意與chrome瀏覽器的版本相對應),下載解壓之後是一個.exe文件。
然後將chromedriver.exe文件放到python安裝目錄下的\Scripts下,再將chromedriver.exe文件放到C:\Program Files (x86)\Google\Chrome\Application目錄下即可。

測試:打開並爬取百度首頁

# -*- coding:utf-8 -*-
from selenium import webdriver

option = webdriver.ChromeOptions()
option.add_argument('headless')
driver = webdriver.Chrome(chrome_options=option)
driver.get('https://www.baidu.com/')
print(driver.title) #打印首頁的title

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章