爬蟲能用selnium嗎？selenium對爬蟲到底有什麼意義？

原創

2020-06-21 18:56

剛學爬蟲的，都覺得，哇，selenium好強大，所見即可爬，什麼ajax請求，什麼js，我selenium加chromedriver全搞定。

其實不是的，selenium它並不萬能，不可否認它的確強大，方便。但，隨着爬蟲學習和使用越來越深入，你會發現，selenium的弊端越來越多。

一：效率問題

從啓動，到模擬種種用戶行爲，他都沒有直接訪問接口快。

二：資源浪費

爬蟲部署在服務器，大量爬蟲啓動，極其消耗資源，你在開幾個selenium，分分鐘爆炸。所以，進公司，基本見不到selenium的蹤跡。

三：能被識別

雖然selenium模擬瀏覽器進行用戶行爲，但其實他還是會被識別。比如淘寶的模擬登陸。

等等吧，這些也就是一部分。

那它到底有什麼用呢？

其實，用處也不少。

比如：我們需要cookies，一個cookies足夠用半個月，那其實，我半個月跑一次代碼做個模擬登陸，獲取cookies，並不會產生上面的影響，

比如：我們需要參數，這個參數又是和瀏覽器有關的生成參數。如：土豆視頻的ckey，那我獲取一個ckey大概可以用100次，我維持數據庫有20條，缺了在運行，也不會有上面的弊端。

selenium，是一個很神奇的工具，它對爬蟲有很大的幫助，但爬蟲卻不能依賴它而活。

更多技能，才能爬到更多數據。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

穿越歷史的設計-計算機02

有時候我很佩服發明家，因爲發明家的是一個有明確目的，併爲之付出一切的職業。當然，發明的目的是爲了解決問題，這些問題有世界難題，也有些是舉手之勞。如果你也崇拜發明家的話，不妨將自己也當作一個發明家吧。因爲我所認爲的發明，不僅僅是科學技術，

2020-07-08 11:15:17

MacOS命令行運行Chrome

MacOS命令行運行Chrome 通過命令打開Chrome，自動加載網頁、加載文件、播放視頻等在應用程序中找到Chrome的安裝路徑，直接運行Chrome程序 1、Chrome 自動播放視頻 /Applications/Google

公众号菜鸟童靴

2020-07-07 11:53:23

Gloox發送消息

Gloox發消息很簡單，通過前面的接消息的描述，當需要與遠端進行通話時，建立一個MessageSession會話，一旦你擁有這樣的一個會話對象了，就可以調用其中的send方法來向遠端發送消息了。那麼這個MessageSession如何獲得

2020-07-07 06:05:14

XMPP協議內容

基本的jabber客戶端必須實現以下標準協議（XEP-0211）1、RFC3920 Core http://tools.ietf.org/html/rfc39202、RFC3921 Instant Messaging and Presen

2020-07-07 06:05:14

windows 10+ubuntu16.04全程配置CPU版本的caffe ssd並訓練自己的數據研究報告

本人花了好幾天，順利完成windows版本caffe-ssd和ubuntu版本的caffe-ssd環境配置、腳本修改、最終獨創一套高速自定義訓練的項目包，可以在配置caffe ssd環境後可以迅速訓練自己的數據，而不需要眼花繚亂的搞各種腳

2020-07-07 04:49:30

[技術雜談][原創]caffe ssd報類似錯Check failed height == datum_height解決方法

網上基本沒有這個報錯的解決方法，最終被我找出來了，原因生成lmdb問題，在生成lmdb時候，要把編碼打開 --encode_type=jpg --encoded=True，一開始我設置爲空,encoded=False就會報類似於Check

2020-07-07 04:49:30

java-idea-編碼規範

jdk版本一般爲jdk8，編碼工具統一使用idea 1 配置類文件頭註釋模版點擊IDEA編譯器左上角的“IntelliJ IDEA”按鈕，選擇“Preferences…”，在彈出窗口中，選擇“Editor–>File and C

wanjinyu的技术小窝

2020-07-03 11:58:05

Java 對象(數組)佔多大空間(幾個字節) 手把手做實驗

廢話不多說，一起開幹 1 前置知識本次實驗基於jdk8 64位以及以上版本。本機環境爲jdk11 先查看一下jvm啓動的默認參數，裏面有2個參數值對本次實驗會造成影響。命令行: java -XX:+PrintCommand

wanjinyu的技术小窝

2020-07-03 11:58:05

mac電腦一些命令的別名（個人向）-筆記

我們編輯文件 vim ~/.bash_profile alias ll='ls -lF' alias ll='ls -lF' alias la='ls -A' alias l='ls -CF' alias gs='

wanjinyu的技术小窝

2020-07-03 11:58:05

雨露均沾系列-開啓前端玩票之旅

雨露均沾系列-開啓前端玩票之旅基本概念介紹Node.jsnpm、 YarnReact、Vue、AngularWebpack小結環境配置安裝 Node.js，npmHelloWorld 最近心有點兒野，腦洞有點大，手有點兒癢，啥玩意

2020-07-03 04:37:13

matplotlib畫圖初體驗

matplotlib畫圖一個畫布上畫簡單折線圖一個畫布上畫多個圖形 matplotlib是基於Python語言的開源項目，旨在爲Python提供一個數據繪圖包。使用matplotlib繪圖的原理，主要就是理解figure(畫布)、

2020-07-03 04:37:13

單點登陸SSO詳細說明書

http://www.cnblogs.com/David-weihw/archive/2007/01/25/630621.html

2020-07-03 03:48:00

如何使用Exe4J打包java軟件

最近用java寫了一些小的桌面程序，考慮到需要給客戶使用，總不能在滅一個客戶電腦安裝jre然後配置各種環境變量，於是採用exe4j對jar文件打包爲exe，exe4j提供了一種方法可以將jar文件和jre一起打包

2020-06-30 23:14:54

解決IntelliJ IDEA中文亂碼問題、swing亂碼問題

<link rel="stylesheet" href="https://csdnimg.cn/release/phoenix/template/css

2020-06-30 23:14:44

如何隱藏win分區

功能需求剛剛手動更新win系統以後,發現了一個特別噁心的事情,那就是:出現了幾個系統分區,如下圖所示(還有一個被分區我隱藏掉了): 出現這種沒有用的東西(注意：這裏出現的都是系統啓動、運行所必要的分區，不要手賤刪掉,對於有強

2020-06-30 23:14:44

24小時熱門文章

最新文章

最新評論文章