轉載聲明：https://www.cnblogs.com/miqi1992/p/8093958.html

Selenium

Selenium是一個Web的自動化測試工具，最初是爲網站自動化測試而開發的，最初是爲網站自動化測試而開發的，類型像我們玩遊戲用的按鍵精靈，可以按指定的命令自動化操作，不同是Selenium可以直接運行在瀏覽器上，它支持所有主流的瀏覽器(包括PhantomJS這些無界面的瀏覽器)。

Selenium可以根據我們的指令，讓瀏覽器自動加載頁面，獲取需要的頁面，甚至頁面截屏，或者判斷網站上某些動作是否發生。

Selenium自己不帶瀏覽器，不支持瀏覽器的功能，它需要與第三方瀏覽器結合在一起才能使用。但是我們有時候需要讓它內嵌在代碼中運行，所有我們而已用一個叫PhantomJS的工具代替真實的瀏覽器。

可以從PyPI網站下載Selenium庫http://pypi.python.org/simple/sulenium,也可以用第三方管理器pip命令安裝:pip install selenium
Selenium官方參考文檔：http://selenium-python.readthedocs.io/index.html

PhantomJS

PhantomJS是一個基於Webkit的"無界面"(headless)瀏覽器，它會把網站加載到內存並執行頁面上的JavaScript，因爲不會展示圖形界面，所以運行起來比完整的瀏覽器更高效。

如果我們把Selenium和PhantomJS結合在一起，就可以運行一個非常強大的網絡爬蟲了，這個爬蟲可以處理JavaScript、Cookie、headers，以及任何我們真實用戶需要做的事情。

注意：PhantomJS只能從它的網站(http://phantomjs.org/download.html)下載。因爲PhantomJS是一個功能完善(雖然無界面)的瀏覽器而非一個Python庫，所以它不需要像Python的其它庫一樣安裝，但我們可以通過Selenium調用PhantomJS來直接使用
PhantomsJS官方纔考文檔：http://phantomjs.org/documention

快速入門

Selenium庫裏有一個叫WebDriver的API。WebDriver可以控制瀏覽器的操作，它可以像BeautifulSoup或者其它Selector對象一樣用來查找頁面元素，與頁面上的元素進行交互(發送文本、點擊等)，以及執行其他動作來運行網絡爬蟲。

#-*-  coding:utf-8 -*-
#主要用來測試selenium使用phantomJs

#導入webdriver
from selenium import webdriver
import time

#要想調用鍵盤按鍵操作需要引入keys包
from selenium.webdriver.common.keys import Keys

#調用環境變量指定的PhantomJS瀏覽器創建瀏覽器對象
driver = webdriver.PhantomJS()
driver.set_window_size(1366, 768)
#如果沒有在環境變量指定PhantomJS位置
#driver = webdriver.PhantomJS(executable_path = "./phantomjs")

#get方法會一直等到頁面加載，然後纔會繼續程序，通常測試會在這裏選擇time.sleep(2)

driver.get("http://www.baidu.com/")

#獲取頁面名爲wraper的id標籤的文本內容
data = driver.find_element_by_id('wrapper').text

#打印數據內容
print(data)

print driver.title

#生成頁面快照並保存
driver.save_screenshot("baidu.png")

id=“kw"是百度搜索輸入框，輸入字符串"長城”

driver.find_element_by_id('kw').send_keys(u'長城')

id="su"是百度搜索按鈕，click()是模擬點擊

driver.find_element_by_id('su').click()

#獲取新的頁面快照
driver.save_screenshot("長城.png")

#打印網頁渲染後的源代碼
print(driver.page_source)

#獲取當前頁面Cookie
print(driver.get_cookies())

#ctrl+a全選輸入框內容
driver.find_element_by_id('kw').send_keys(Keys.CONTROL, 'a')
#ctrl+x剪切輸入框內容
driver.find_element_by_id('kw').send_keys(Keys.CONTROL, 'x')

#輸入框重新輸入內容
driver.find_element_by_id('kw').send_keys('itcast')

#模擬Enter回車鍵
driver.find_element_by_id('su').send_keys(Keys.RETURN)
time.sleep(5)

#清空輸入框內容
driver.find_element_by_id('kw').clear()

#生成新的頁面快照
driver.save_screenshot('itcast.png')

#獲取當前url
print(driver.current_url)

driver.quit()
頁面操作
Selenium的WebDriver提供了各種方法來尋找元素，假設下面有一個表單輸入框：

<input type="text" name="user-name" id="passwd-id" />
那麼：

#獲取id標籤值
element = driver.find_element_by_id("passwd-id")
#獲取name值
element = driver.find_element_by_name("user-name")
#獲取標籤名
element = driver.find_element_by_tag("input")
#也可以通過XPath來匹配
element = driver.find_element_by_xpath(//input[@id="passwd-id"])
定位UI元素(WebElements)
關於元素的選取，有如下的API單個元素選取

find_element_by_id
find_element_by_name
find_element_by_xpath
find_element_by_link_text
find_element_by_partial_link_text
find_eelement_by_tag_name
find_element_by_class_name
find_element_by_css_selector

1. By ID

<div id="coolesWidgeEvah">...</div>
實現
element = driver.find_element_by_id("coolesWidgetEvah")

---------or-------
from selenium.webdriver.common.by import By
element = driver.find_element(by=By.ID, value="coolesWidgetEvah")

2. By Class Name

<div class="cheese"><span>Cheddar</span></div><div class="cheese"><span>Gouda</span></div>

實現
cheese = driver.find_element_by_class_name(‘cheese’)

----------------or--------------------
from selenium.webdriver.common.by import By
cheese = driver.find_elements(By.CLASS_NAME, “cheese”)

3. By Tag Name

<iframe src="..."></iframe>
實現
frame = driver.find_element_by_tag_name("iframe")
------------------------or---------------
from selenium.webdriver.common.by import By
frame = driver.find_element(By.TAG_NAME, "iframe")

4.By Name

<imput name="cheese" type="text" />
實現
cheese = driver.find_element_by_name("cheese")

-------------or-------------------------
from selenium.webdrier.common.by import By
cheese = driver.find_element(By.NAME, "cheese")

5. By Link Text

<a href="http://www.google.com/search?q=cheese">cheese</a>
實現
cheese = driver.find_element_by_link_text("cheese")
---------------------or-----------------------
from selenium.webdriver.common.by import By
cheese = driver.find_element(By.LINK_TEXT, "cheese")

6.By Partial Link Text

<a href="http://www.google.com/search?q=cheese">search for cheese</a>
實現
cheese = driver.find_element_by_partial_link_text("cheese")

-----------------or-----------------
from selenium.webdriver.common.by import By
cheese = driver.find_element(By.PARTIAL_LINK_TEXT, "cheese")

6.By CSS

<div id="food"><span class="dairy">milk</span><span class="dairy">cheese</span></div>
實現
cheese = driver.find_element_by_css_selector("#food span.dairy.aged")
----------------or-------------------------------
from selenium.webdriver.common.by import By
cheese = driver.find_element(By.CSS_SELECTOR, "#food

span.dairy.aged")

7.By XPath

<input type="text" name="example" / >
<input type="text" name="other" / >
實現
inputs = driver.find_elements_by_xpath("input")
-------------------or------------------
from selenium.webdriver.common.by import By
inputs = driver.find_elements(By.XPATH, "//input")

鼠標動作鏈
有些時候，我們需要在頁面上模擬一些鼠標操作，比如雙擊、右擊、拖拽甚至按住不動等，我們可通過導入ActionChains類來做到：

示例：

#導入ActionChains類
from selenium.webdrive import ActionChains

#鼠標移動到ac位置
ac = driver.find_elenemt_by_xpath('element')
ActionChains(driver).move_to_element(ac).perform()

#在ac位置單擊
ac = driver.find_element_by_xpath('elementA')
ActionChains(driver).move_to_element(ac).click(ac).perform()

#在ac位置雙擊
ac = driver.find_element_by_xpath("elementB")
ActionChains(driver).move_to_element(ac).double_click(ac).perform()

#在ac位置右擊
ac = driver.find_element_by_xpath('elementC')
ActionChains(driver).move_to_element(ac).context_click(ac).perform()

#在ac位置左鍵單擊hold住
ac = driver.find_element_by_xpath('elementF')
ActionChains(driver).move_to_element(ac).click_and_hold(ac).perform()

#將ac1拖拽到ac2位置
ac1 = driver.find_element_by_xpath('elementD')
ac2 = driver.find_element_by_xpath('elementE')
ActionChains(driver).drag_and_drop(ac1, ac2).perform()
填充表單
我們已經知道了怎樣向文本框輸入文字，但是有時候我們會碰到<select></select>標籤的下拉框。直接點擊下拉框中的選項不一定可行。

<select id="status" class="form-control valid" onchange="" name = 'status'>
    <option value=""></option>
    <option value="0">未審覈</option>
    <option value="1">初審通過</option>
    <option value="2">複審通過</option>
    <option value="3">審覈不通過</option>
</select>
下拉框

Selenium專門提供了Select類來處理下拉框。其實WebDriver中提供了一個叫Select的方法，可以幫助我們完成這些事情：


#導入Select類
from selenium.webdriver.support.ui import Select

#找到name的選項卡
select = Select(driver.find_element_by_name('status'))

#s
select.select_by_index(1)
select.select_by_value("0")
select.select_by_visible_text(u'未審覈')
以上是三種選擇下拉框的方式，它可以根據索引來選擇，可以根據值來選擇，可以根據文字來選擇。注意：

index索引從0開始
value是option標籤的一個屬性值，並不是顯示在下拉框中的值
visible_text實在option標籤文本的值，是顯示在下拉框的值
全部取消選擇怎麼辦呢？很簡單：

select.deselect_all()
彈窗處理
當你觸發了某個事件之後，頁面出現了彈窗提示，處理這個提示或者獲取提示信息方法如下：

alert = driver.switch_to_alert()
頁面切換
一個瀏覽器肯定會有很多窗口，所以我們肯定要有方法來實現窗口的切換，切換窗口的方法如下：

driver.switch_to_window('this is window name')
也可以使用window_handles方法來獲取每個窗口的操作對象。例如：

for handle in driver.window_handles:
    driver.switch_to_window(handle)
頁面的前進和後退
操作頁面的前進和後退功能：

driver.forward()  #前進
driver.back()    #後退
Cookies
獲取頁面每個Cookies值，用法如下：

for cookie in driver.get_cookies():
    print("%s -> %s"%(cookie['name'], cookie['value']))
刪除Cookies,用法如下：

#By name
driver.delete_cookie('CookieName')

#all
driver.delete_all_cookies()

頁面等待
注意：這是非常重要的一部分！
現在的網頁原來越多采用了Ajax技術，這樣程序變不能確定何時某個元素完全加載出來了。如果實際頁面等待事件過長導出某個dom元素還沒出來，但是你的代碼直接使用了這個WebElement，那麼就會拋出NullPointer的異常。
爲了避免這種元素定位困難而且會提高產生ElementNotVisibleException的概率。所以Selenium提供了兩種等待方式，一種是隱式等待，一種是顯式等待。
隱式等待就是等待特定的時間，顯示等待是指定某一條件知道這個條件成立時繼續執行。

顯式等待
顯示等待指定了某個條件，然後設置最長等待事件。如果在這個時間還找到沒有元素，那麼便會拋出異常。

from selenium import webdriver
from selenium.webdriver.common.by import By

#WebDriverWait庫，負責循環等待
from selenium.webdriver.support.ui import WebDriverWait
#expected_conditions類，負責條件觸發
from selenium.webdriver.support import expected_conditions as EC

driver = webdriver.Chrome()

driver.get("http://www.xxxx.com/loading")

try:

    #頁面一直循環，知道id="myDynamicElement"出現
    element = WebDriverWait(driver, 10).until(
            EC.presence_of_element_located((By.ID, "myDynamicElement"))
        )
finally:
    driver.quit()

如果不寫參數，程序默認會0.5s調用一次來來查看安蘇是否已經生成，如果本來元素時存在的，那麼會立即返回。

下面是一些內置的等待條件，你可以直接調用這些條件，而不用自己寫某些等待條件了。

title_is
title_contains
presence_of_element_located
visibility_of_element_located
visibility_of
presence_of_all_elements_located
text_to_be_present_in_element
text_to_be_present_in_element_value
frame_to_be_available_and_switch_to_it
invisibility_of_element_located
element_to_be_clickable - it is Displayed and Enabled
staleness_of
element_to_be_selected
element_located_to_be_selected
element_selection_state_to_be
element_located_selection_state_to_be
aert_is_present

隱式等待
隱式等待比較簡單，就是簡單地設置一個等待時間，單位爲秒。

from selenium import webdriver

driver = webdriver.Chrome()
driver.implicitly_wait(10) #seconds

driver.get(“http://www.xxxxx.com/loading”)

myDynamicElement = driver.find_element_by_id(“myDynamicElement”)
如果不設置，默認等待時間爲0。

Python爬蟲：Selenium與PhantomJS

Selenium

PhantomJS

快速入門

id=“kw"是百度搜索輸入框，輸入字符串"長城”

id="su"是百度搜索按鈕，click()是模擬點擊

1. By ID

2. By Class Name

3. By Tag Name

4.By Name

5. By Link Text

6.By Partial Link Text

6.By CSS

7.By XPath

如何使用 JS 判斷用戶是否處於活躍狀態

Mono 支持LoongArch架構

lightdb秒級增加列和刪除列（not null帶默認值）

lightdb數據庫超時相關控制參數

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

❤️‍🔥 Solon Cloud Event 新的事務特性與應用

lightdb mysql 8.0兼容之不可見主鍵

使用 JS 實現在瀏覽器控制檯打印圖片 console.image()

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（四）使用域名訪問網站應用

ImageDataGenerator生成器的flow，flow_from_directory用法總結，及自己踩的坑【原創】

pyspider爬取免費正版圖片網站Pixabay

【技巧學習1】用python實現批量修改圖像文件名

【軟件安裝與管理1】windows下免安裝版MySQL配置教程

python 讀取多文件夾中的圖片文件信息保存到csv文件中【原創】

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結