前言
不考慮運行時間和效率問題的話,小規模爬蟲程序,selenium是最好最合適的python爬蟲庫。這篇講一下如何實現用selenium進行爬蟲。
環境配置
- 系統:win10 (64位)
- 瀏覽器: chrome (推薦大家都用這個)
- 編譯器:pycharm
- python版本:python3, 我用的是3.7
第一步: 下載selenium第三方庫
參考方法 Pycharm下載第三方包
輸入命令:
pip install selenium
即可。
第二步: 下載chrome driver
這一步不可或缺, 否則程序將會報錯。
首先確認自己的chrome版本, 點擊chrome界面右上角, 設置或訪問本鏈接
記住這裏小數點前的第一個數, 這裏我是81。
然後去chrome driver 官網, 下載相應匹配的版本,
如:
這裏選一個81開頭的就行了,
再選擇windows版本下載即可。
解壓後可以得到如下的exe文件:
配置地址
首先找到自己安裝的chrome的源地址,即chrome.exe的文件夾:
這個可以用everthing都快速找出, 也可以右鍵chrome快捷方式,點擊屬性查看位置。
找到該文件夾後, 將剛剛解壓的chromedriver.exe文件複製粘貼進入即可。
使用selenium進行爬蟲
from selenium import webdriver
Chromedriver_path = 'C:/Program Files (x86)/Google/Chrome/Application/chromedriver.exe'
driver = webdriver.Chrome(Chromedriver_path)
driver.get('www.baidu.com)
運行上述代碼,就能用selenium打開百度啦。 其中第二句的地址替換爲你自己剛複製的chromedriver的地址即可, 然後最後一句的url可以改爲你想爬取的網頁地址。
按這樣三步,就成功配置好了selenium!
最後推薦下selenium的官方教程,非常好用,極易上手: