原创 爬蟲之遇到521,破解cookie之window對象

使用python、scrapy import execjs# 安裝pip install PyExecJS 用這種方式只是爲了調試,實際使用中還是要用js引擎v8 看了不少博客是要用到模擬瀏覽器phantomjs、chrome什麼的,

原创 爬蟲之遇到521,破解cookie之js監測到無頭瀏覽器

使用python、scrapy import execjs# 安裝pip install PyExecJS 用這種方式只是爲了調試,實際使用中還是要用js引擎v8 看了不少博客是要用到模擬瀏覽器phantomjs、chrome什麼的,

原创 pip install出錯:Cannot connect to proxy

pip install出錯:Cannot connect to proxy Cannot connect to proxy.', NewConnectionError('<pip._vendor.u rllib3.connection.V

原创 caffe整圖訓練---驗證碼

caffe自行安裝,win版 算法:Res_LSTM_CTC   不定長 準備樣本

原创 Scrapy如何獲取返回的headers裏面的多個Set-Cookie

https://blog.csdn.net/legendary_Dragon/article/details/81287593   cookie = response.headers.getlist('Set-Cookie')

原创 爬蟲之遇到521,破解cookie(直接過程,後續有時間細細分解)

使用python、scrapy import execjs 看了不少博客是要用到模擬瀏覽器phantomjs、chrome什麼的,在實際應用,效率真的慢的可怕,所以這樣的方法拋棄! 廢話不多說,開始: 首先從樓主要研究的網站說起(具體網

原创 caffe安裝與測試集(先佔坑,後續有時間在寫)

最近在使用caffe,過程中遇到不少問題,從安裝到測試,在到實際應用中!  

原创 unbuntu(烏班圖)虛擬機修改ip地址NAT模式

每次進入Ubuntu,ip地址都會有變化,如果有軟件鏈接的話,肯定會很煩!!一.簡單粗暴方式:1.肯定要打開Ubuntu了,不知道你們是什麼版本的,樓主用的是16版的,然後工具欄裏的“編輯(E)”下的"虛擬網絡編輯器(N)""虛擬網絡編輯器

原创 scrapy用post請求payload形式的參數,過程以及實現;還有requests實現方式

payload是什麼就不說了!一、payload在瀏覽器上的數據瀏覽器上請求方式:2.payload參數:可以看出來參數形式是json3.headers:4.response:可以看出來是json的數據!二、在scrapy中訪問payloa

原创 向scrapy中的spider傳參,實現增量

有時候需要根據項目的實際需求向spider傳遞參數來控制spider的運行方式。比如說,1.根據用戶提交的url來控制spider爬取的網站。2.根據需求增量爬取數據。今天就寫一個增量(augmenter)的方式:Spider參數通過 c

原创 scrapy怎麼post 請求payload形式的參數的實現;還有requests實現方式

payload是什麼就不說了!一、payload在瀏覽器上的數據瀏覽器上請求方式:2.payload參數:可以看出來參數形式是json3.headers:4.response:可以看出來是json的數據!二、在scrapy中訪問paylo

原创 scrapy多個爬蟲公用一些中間件、pipelines

使用python3請求頭headers:user-agent、代理ip,這些放在一個工程項目裏,有的爬蟲是需要中間件的或者根據反爬添加相應的條件,那這樣的情況下怎麼辦?1.中間件處理默認帶上請求頭,不帶啓用ip代理功能spiders文件夾

原创 虛擬機Ubuntu16.04 Server設置NAT方式修改ip

每次都要查看ip,每次都不一樣,往往我們會選擇“NAT模式”,但是選擇的時候,ip地址會產生衝突,這樣我們就要修改我們的IP地址來解決!!一、簡單方式:1.工具欄‘編輯’  2.虛擬網絡編輯器,選擇NAT模式==》子網ip沒法修改 3.‘