selenium+python設置爬蟲代理IP

原創

2020-07-07 23:00

1. 背景
在使用selenium瀏覽器渲染技術，爬取網站信息時，一般來說，速度是很慢的。而且一般需要用到這種技術爬取的網站，反爬技術都比較厲害，對IP的訪問頻率應該有相當的限制。所以，如果想提升selenium抓取數據的速度，可以從兩個方面出發：第一，提高抓取頻率，出現驗證信息時進行破解，一般是驗證碼或者用戶登錄。
第二，使用多線程 + 代理IP，這種方式，需要電腦有足夠的內存和充足穩定的代理IP 。
2. 爲chrome設置代理IP

from selenium import webdriver
chromeOptions = webdriver.ChromeOptions()

# 設置代理
chromeOptions.add_argument("--proxy-server=http://202.20.16.82:10152")
# 一定要注意，=兩邊不能有空格，不能是這樣--proxy-server = http://202.20.16.82:10152
browser = webdriver.Chrome(chrome_options = chromeOptions)

# 查看本機ip，查看代理是否起作用
browser.get("http://httpbin.org/ip")
print(browser.page_source)

# 退出，清除瀏覽器緩存
browser.quit()

注意事項：
第一，代理IP最好是穩定的固定IP，不要選動態IP。我們常用的爬蟲IP是高匿名動態IP，是通過撥號動態產生的，時效性很短，一般在1~3分鐘。對於scrapy這種併發度很高，又不需要登錄的爬蟲來說，非常合適，但是在瀏覽器渲染類爬蟲中並不適用。
第二，代理IP的速度。因爲selenium爬蟲採用的是瀏覽器渲染技術，本身速度就很慢。如果選擇的代理IP速度較慢，就會大大增加爬取的時間。
第三，電腦內存要夠大。因爲chrome佔內存較大，在併發度很高的情況下，容易造成瀏覽器崩潰，也就是程序崩潰。
第四，在程序結束時，調用 browser.quit( ) 清除瀏覽器緩存。
3. 需要用戶名密碼驗證的代理
參考文章：
Selenium chrome配置代理Python版：https://www.cnblogs.com/roystime/p/6935543.html
GitHub：https://github.com/RobinDev/Selenium-Chrome-HTTP-Private-Proxy

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

selenium+python設置爬蟲代理IP

selenium+python設置爬蟲代理IP

Python小知識————如何解決Python日常代碼中的一些BUG

日常分享第一篇 python基礎語法time

乾貨！！！———————Python基礎教學第二篇

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結