Python爬蟲學習筆記（selenium+Headless）

原創

2020-06-24 05:08

selenium目前拋棄了之前使用的phantomanJS,改用Selenium+Headless的組合，解決JS渲染問題，不會有瀏覽器窗口彈出並且提升了執行速度，同時可以儘量規避網站對爬蟲的審查（建議添加cookie並使用代理池）。使用時，首先應當安裝selenium和webdriver,webdriver應當與當前Chrome瀏覽器版本一致才能正常使用，二者都建議使用最新版本。

下載webdriver chrome:
下載webdriver：http://chromedriver.storage.googleapis.com/index.html （注意與chrome瀏覽器的版本相對應），下載解壓之後是一個.exe文件。
然後將chromedriver.exe文件放到python安裝目錄下的\Scripts下，再將chromedriver.exe文件放到C:\Program Files (x86)\Google\Chrome\Application目錄下即可。

測試：打開並爬取百度首頁

# -*- coding:utf-8 -*-
from selenium import webdriver

option = webdriver.ChromeOptions()
option.add_argument('headless')
driver = webdriver.Chrome(chrome_options=option)
driver.get('https://www.baidu.com/')
print(driver.title) #打印首頁的title

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Python的while循環

1.while循環的格式 while 條件: 條件滿足時，做的事情1 條件滿足時，做的事情2 條件滿足時，做的事情3 ...(省略)... demo

2023-10-10 11:37:31

python初識第二天

認識現實世界與虛擬世界的橋樑感受python帶來的魔力數據類型 Python裏，最常用的數據類型有三種——字符串(str)、整數(int)和浮點數(float) 字符串，字符串英文string，簡寫str 字符串的識別方式非常簡單—

2023-02-01 22:01:30

Python和Pytest實現登錄態的Cookie繞過方法詳解

1. 背景介紹京東作爲中國最大的綜合性電商平臺之一，擁有龐大的用戶羣體和海量的商品信息。對於開發人員和測試人員來說，如何高效地進行京東網站的數據爬取和接口測試至關重要。而在進行這些操作時，登錄狀態是一個不可或缺的環節。本文將介紹如何利

2024-04-09 23:26:18

想請教一下，selenium可以做到點擊這個繼續嘛？

大家好，我是Python進階者。一、前言前幾天在Python鑽石交流羣【盼頭】問了一selenium的問題，問題如下：想請教一下，selenium可以做到點擊這個繼續嘛？二、實現過程這裏【此類生物】給了一個解答:可以，switch

2024-04-09 21:49:08

利用Python和Selenium實現定時任務爬蟲

網絡爬蟲在信息獲取、數據分析等領域發揮着重要作用，而定時爬蟲則可以實現定期獲取網站數據的功能，爲用戶提供持續更新的信息。在Python中，結合Selenium技術可以實現定時爬蟲的功能，但如何設置和優化定時爬蟲的執行時間是一個關鍵問題。本

2024-04-03 23:24:26

python selenium 4.9 自動下載chromedriver.exe

先闢謠！“新版selenium不用driver也能控制chrome！”假的！依然需要driver，只是.........它自動匹配下載而已。而且存放位置很迷...... 先上一段代碼，大家覺得是否會報錯？（本測試不存在driver.exe文

2023-05-09 22:04:29

2021 年 25 大 DevOps 工具（下）

DevOps 正在改變全球軟件開發的狀態，DevOps 正以某種形式有效地提高提高全球軟件公司的上市速度、可銷售性、創新和產品質量。 2021 年是 DevOps 的重要一年。由於 DevOps 跨越開發、運營、IT、安全和產品團隊等等，以

2022-04-30 06:11:13

項目經理值得一試的思維方式：項目成功方程式

“有沒有一個一勞永逸的項目管理實踐？” “我怎樣才能找到一個能夠解決所有問題的方法？” “爲什麼我用的都是同樣的方法，但有的項目延期了？” …… 在很多敏捷羣中，經常會有人問這些問題。那有沒有一個可以解決所有問題的方法呢？答案是：沒有，因爲

2022-04-30 06:11:09

from selenium.webdriver.chrome.options import Options中add_argument 常用參數表收集

chrome_options.add_argument("xxx") 序號參數說明 1 --allow-outdated-plugins 不停用過期的插件。 2 --allow-running-insecure-c

2021-12-25 21:46:37

selenium自動化_如何啓動safari瀏覽器

前言 selenium進行自動化測試過程中，直接啓動safari瀏覽器會報錯"Could not create a session: You must enable the 'Allow Remote Automation' option

2021-12-25 21:45:26

「不求人」我用Python搶到了人生的第一單

最近，爲了達成小姐姐的願望：在某寶上搶到自己心儀的寶貝，小明使用Python輕而易舉地實現了搶單。於是，小明自然而然地迷上了Python，差點把小姐姐忘了。需求分析&前期準備需求其實很簡單，正常購物。我們日常的購

2021-12-25 21:41:07

(selenium+python)_UI自動化03_定位新開窗口內元素

前言瀏覽器點擊web網站鏈接時，經常在當前窗口的基礎上打開另一個新的窗口。如下： selenium定位新窗口元素，需要先切換到新窗口，再定位元素，否則會出現報錯“NoSuchElementException: Message: no s

2021-12-25 21:35:15

爬蟲(十二)：圖形驗證碼的識別、滑動驗證碼的識別（B站滑動驗證碼）

1. 驗證碼識別隨着爬蟲的發展，越來越多的網站開始採用各種各樣的措施來反爬蟲，其中一個措施便是使用驗證碼。隨着技術的發展，驗證碼也越來越花裏胡哨的了。最開始就是幾個數字隨機組成的圖像驗證碼，後來加入了英文字母和混淆曲線，或者是人眼都很難

2021-12-25 21:32:03

Scrapy爬蟲錯誤日誌彙總

1、數組越界問題(list index out of range) 原因：第1種可能情況：list[index]index超出範圍,也就是常說的數組越界。　　　第2種可能情況：list是一個空的，沒有一個元素，進行list[0]就會出

2021-12-25 21:29:06

Selenium3 + Python3自動化測試系列五——常用斷言Assertion

斷言Assertion 驗證應用程序的狀態是否同所期望的一致。常見的斷言包括:驗證頁面內容，如標題是否爲X或當前位置是否正確，或是驗證該複選框是否被勾選。 selenium 提供了三種模式的斷言：assert 、verify、waitf

2021-12-25 21:23:46

24小時熱門文章

最新文章

最新評論文章