一個程序員的週末還是挺無聊的,所以閒來無事寫個爬蟲,爬點有意思的東西,你懂得。
因爲電腦重做系統,之前的環境都得重新配,因爲頁面內容的特殊性,需要通過js渲染才能夠看到,所以需要selenium+phantomjs的配合才能夠完成爬蟲。然而,當我下載phantomjs以及selenium後,卻告訴我,最新版的selenium不再支持phantomjs,請換headless的firefox或者chrome。沒有辦法,人家拋棄phantomjs了,因爲本機沒有chrome,乾脆就選用firefox。
1.selenium調用firefox接口時,需要中間件geckodriver,不然會報錯
下載地址:https://github.com/mozilla/geckodriver/releases
根據自己的操作系統下載對應的文件,解壓之後將可執行文件放在/usr/bin (只針對linux系統)
2.配置headless
看網絡教程使用:set_headless,發現已經不允許了,提示需要setter來進行配置
from selenium import webdriver
from selenium.webdriver import FirefoxOptions
options = FirefoxOptions()
options.add_argument('--headless')
dr = webdriver.Firefox(firefox_options=options)
dr.get("https://www.baidu.com")
print(dr.current_url)
3.完成
這樣就可以使用headless的firefox了,然後,嘿嘿嘿。