利用selenium訪問某網站實現模擬人機交互爬蟲

原創

2019-06-11 23:57

高考剛結束，堂侄面臨志願投遞的問題，之前用jsoup模擬抓取過不少網站，但是抓取高考信息網（gkcx.eol.cn）的時候遇到了問題，部分接口返回的內容爲密文，查看網站js，應該是採用了PBKDF2加密方式，而且加密方式也挺複雜，走進了死衚衕。

google查詢類似問題，發現了selenium可以用來實現瀏覽器自動化功能：模擬用戶點擊，操作瀏覽器的組件實現翻頁等。

https://gkcx.eol.cn/linespecialty?province=&zytype=&schoolyear=2018&schoolpc=&luqutype=理科

模擬此頁面的訪問，發現問題如下：

1.部分專業默認展示的條目數不全，需要再次點擊專業門類下對應的專業（根據cssSelector獲取到對應的專業對應的dom，並點擊，此處添加了超時等待並重新獲取頁面的dom數據）

2.需要點擊末頁獲取總頁數（模擬點擊）；

3.非末頁的數據需要點擊下一頁查看分頁數據

4.ajax頁面內容請求超時設置等待時間（超時等待新的dom重新加載完成）

首先定義一個wait，模擬超時等待

    WebDriverWait wait = new WebDriverWait(webDriver, 15);

發生dom變化時

wait.until(ExpectedConditions.presenceOfElementLocated(By.cssSelector("#.")));//cssSelector可採用jquery選擇器對應的語法

5.數據存儲方式（定爲excel，採用poi工具進行存儲）

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

第十七週上機任務---指針玩字符串

/* * Copyright (c) 2012, 煙臺大學計算機學院 * All rights reserved. * 文件名稱：test.

2020-07-08 04:13:59

**springboot整合mybatis

官網網址 github 集成官網 baomidou mybatis plus官網用阿里雲下載地址 jar包很容易下錯 springboot 登入的pom 依賴 //**管理依賴的jar** <parent>

CherishTheMemoryOf

2020-07-08 00:18:14

springboot整合 mybatis plus

需要依賴: //spring-boot整合 mybatis <dependency> <groupId>com.baomidou</groupId> <artifactId>mybatis-plus-bo

CherishTheMemoryOf

2020-07-08 00:18:14

一個人堅持下去的能量到底有多大？

如題疑問從去年開始認真思考這個問題開始，我就在不斷的關注身邊的事情，關注自己身上發生的事情，也發現了很多身邊的例子，在此，我想分享給大家，希望大家聽後，能有一些自己的思考和自己的想法，以此交友想必會有更多志同道合之輩。我

2020-07-08 00:02:00

vagrant下面安裝docker

login：vagrant password：vagrant 卸載舊版本docker： sudo yum remove docker \ docker-client \

2020-07-07 21:10:16

顏色透明度對應值

100% — FF 95% — F2 90% — E6 85% — D9 80% — CC 75% — BF 70% — B3 65% — A6 60% — 99 55% — 8C 50% — 80 45% — 73 40% — 66 3

鎏嫣宫守护

2020-07-07 12:51:12

VC++學習1：windows內部運行機制

1 句柄 /* 窗口是通過窗口句柄（HWND）標識的，我們要對某個窗口進行操作，首先就要得到這個窗口的句柄。在windows程序中，有各種各樣的資源（窗口、圖標、光標等），系統在創建這些資源時會爲它們分配內存，並返回標識

学海无涯-学以致用

2020-07-07 06:52:14

數據結構學習1：赫夫曼編碼

一算法注意： 1：數據結構（C語言版本）嚴蔚敏，書籍中的算法，有一處錯誤。p = HT+1纔是對的。 2：動態申請堆內存的數組，用於存儲樹結點。下標爲0的單元，未用。二代碼 #include<limits.h> /* I

学海无涯-学以致用

2020-07-07 06:52:14

老是記不住/r 和 /n 哪個是13 哪個是 10

所以要在blog寫下一個小代碼： javascript:alert('/n'.charCodeAt(0)); alert('/r'.charCodeAt(0)); javascript:alert(String.fromCharC

2020-07-06 18:05:34

發佈一個emacs擴展：Hexview巨文件16進制查看模式

title: 發佈一個emacs擴展：Hexview巨型文件16進制查看模式 Emacs(http://www.gnu.org/software/emacs/)是個神奇的工具，她能讓使用者的編輯效率永無止境地提升。今天區區的一個Week

2020-07-06 18:05:24

Eclipse內安裝jbpm6插件

參考：https://blog.csdn.net/feinifi/article/details/53576505 （內涵jbpm下載鏈接） 1.下載jbpm6.zip並解壓（上面鏈接裏有） 2.eclipse->help->Ins

2020-07-06 16:11:20

eclipse連接mysql（帶mysql的下載安裝）

轉自：https://blog.csdn.net/qq_40453972/article/details/87179186 補充： 1. my.ini不需要 2. cmd配置如果顯示失敗，要用管理員身份進入cmd（搜索cmd，然後右鍵

2020-07-06 16:11:20

[考研] 中文自我介紹 | 英文自我介紹 | 英文問答

中文自我介紹各位老師上午好！我是2號考生，今年22歲，是一名光榮的預備黨員，我出生長大在浙江杭州，現在就讀於台州學院，信息管理與信息系統專業。在大學期間，我一直秉持着“學習是學生的第一天職”的信念，在學習方面，我從不懈怠，連續三年均爲

2020-07-06 16:11:20

eclipse連接mysql報錯

問題描述：eclipse連接mysql時出現The server time zone value '?й???????' is unrecognized or represents more than one time zone，導致Pi

2020-07-06 16:11:20

JBPM的.jpdl.xml文件中文出現亂碼

如圖出現亂碼: 在Eclipse的配置文件 eclipse.ini 最後一行加入如下啓動參數重啓eclipse即可解決 -Dfile.encoding=UTF-8

2020-07-06 16:11:20

24小時熱門文章

Wireshark 安裝+使用（一）

最新文章

最新評論文章