原创 SVG映射反爬蟲

在網站中,網頁正常顯示,但是源代碼對應標籤中沒有顯示信息,而網頁中則有信息顯示,標籤中唯一可用的信息則是class標籤。   像此類反爬網頁中,它出現了一個新的概念,分析頁面中引入了xxx.svg的文件,而class標籤則與這個文

原创 動態渲染反爬蟲

爲了提高用戶的體驗,大部分網站都使用動態渲染,即使用JavaScript代碼來實現。   動態渲染,由JavaScript改變HTML DOM 導致頁面內容發生變化的現象,不僅提高了網頁的交互性,還提升網頁的加載速度,爲用戶提供了

原创 談談python2與python3

1. __future__: python每次更新時,引入了一些新的模塊或功能,那麼版本之間會可能會出現版本不兼容問題。 __future__ 模塊就是爲了解決這個問題,它把新功能添加到了這個模塊中,可以使用這個模塊,進行新功能的測試與使

原创 Cookie反爬蟲

爬蟲程序中,默認情況下,只請求HTML文本資源,這意味着它們不會主動完成瀏覽器保存Cookie操作。 - 瀏覽器工作:   瀏覽器在請求時,自動檢查響應頭中是否存在Set-Cookie,如果存在,則保存在本地,請求時,就會帶上對應

原创 簽名驗證反爬蟲

簽名驗證,與Cookie驗證類似,但是它的數據顯示在XHR類型文件中,是AJAX技術。   對於部分網站,在發送網絡請求時,通過抓包,它發送多個請求,通過分析,它的響應值則在Type 爲 XHR 的響應中,而不是在text/htm

原创 圖像驗證碼識別(兩種方式)

準備庫: PIL pytesseract PIL:用於處理驗證碼圖片 pytesseract:用於識別圖片文字 準備工具: Tesseract Ocr 下載地址 http://digi.bib.uni-mannheim.de/t

原创 WebSocket反爬蟲

WebSocket 側重點在Socket。在客戶端與服務器之間交換數據,當兩者連接成功時,就可以保持長期連接,服務器可以直接向客戶端推送數據,無需通過客戶端發送多次請求。   對於某些網站,服務器需要給客戶端(瀏覽器)不斷更新信息

原创 圖片文字型混合反爬蟲

在一些網站中,當正常瀏覽頁面時,看不出端倪,但是通過查看HTML源代碼時,就發現數據不正常顯示,爬蟲程序則無法獲取。   在網站中,頁面顯示文字時,帶有文字的圖片和正常文字混合顯示在一起,在源代碼中,是以圖片方式顯示,這樣的方式,

原创 字體映射反爬蟲

在網站中,頁面正常顯示,但是查看源代碼時,沒有對應的信息,而是一些錯誤的信息。   在源代碼中,對應標籤中的信息是錯亂的,當爬蟲請求時,代碼響應回來的html源代碼,根本無法直接採集下來,如下圖。   相應源代碼: 呈現過程

原创 python實現字符串的倒序(五種)

今天看到一個面試題,說實現一串字符串的倒序。如:“abcde" --> "edcba"   使用python的特性 s = "abcde" def str_reverse1(s): return s[::-1] if _

原创 css偏移反爬蟲

網站中,頁面正常顯示,但是源代碼中確找不到相關的數據,帶是一個或多個帶樣式的標籤。   css偏移反爬蟲,在反爬技術中也用得比較多的,都是爲阻止爬蟲工程師採集頁面的數據,它的特點在於計算。源代碼中,它們的數據錯亂不堪,但是前端工程

原创 05.簽名驗證反爬蟲

簽名驗證,與Cookie驗證類似,但是它的數據顯示在XHR類型文件中,是AJAX技術。   對於部分網站,在發送網絡請求時,通過抓包,它發送多個請求,通過分析,它的響應值則在Type 爲 XHR 的響應中,而不是在text/htm

原创 04.Cookie反爬蟲

爬蟲程序中,默認情況下,只請求HTML文本資源,這意味着它們不會主動完成瀏覽器保存Cookie操作。 - 瀏覽器工作:   瀏覽器在請求時,自動檢查響應頭中是否存在Set-Cookie,如果存在,則保存在本地,請求時,就會帶上對應

原创 03.User-Agent反爬蟲

在網絡請求中,User-Agent是客戶端表明身份的一種標識,在服務器中,可以判斷User-Agent是否爲瀏覽器行爲。 瀏覽器User-Agent如下: Chrome: Mozilla/5.0 (Windows NT 6.1;

原创 談談Python 中列表與元組

列表與元組的基本區別這裏就不說了,百度上大把,我們就談談百度上稀少的吧。   把列表與元組看作數組        在創建一個列表或元組時,我們必須分配一塊系統內存,而這個內存空間是連續的,Python又是基於C而來,那麼結合C,可以知