台部落hccfm

原创 SVG映射反爬蟲

在網站中，網頁正常顯示,但是源代碼對應標籤中沒有顯示信息，而網頁中則有信息顯示，標籤中唯一可用的信息則是class標籤。像此類反爬網頁中，它出現了一個新的概念，分析頁面中引入了xxx.svg的文件，而class標籤則與這個文

2020-06-17 08:00:33

3

原创動態渲染反爬蟲

爲了提高用戶的體驗，大部分網站都使用動態渲染，即使用JavaScript代碼來實現。動態渲染，由JavaScript改變HTML DOM 導致頁面內容發生變化的現象，不僅提高了網頁的交互性，還提升網頁的加載速度，爲用戶提供了

2020-06-17 08:00:33

23

原创談談python2與python3

1. __future__： python每次更新時，引入了一些新的模塊或功能，那麼版本之間會可能會出現版本不兼容問題。 __future__ 模塊就是爲了解決這個問題，它把新功能添加到了這個模塊中，可以使用這個模塊，進行新功能的測試與使

2020-06-17 07:07:56

原创 Cookie反爬蟲

爬蟲程序中，默認情況下，只請求HTML文本資源，這意味着它們不會主動完成瀏覽器保存Cookie操作。 - 瀏覽器工作：瀏覽器在請求時，自動檢查響應頭中是否存在Set-Cookie，如果存在，則保存在本地，請求時，就會帶上對應

2020-06-17 07:07:56

11

原创簽名驗證反爬蟲

簽名驗證，與Cookie驗證類似，但是它的數據顯示在XHR類型文件中，是AJAX技術。對於部分網站，在發送網絡請求時，通過抓包，它發送多個請求，通過分析，它的響應值則在Type 爲 XHR 的響應中，而不是在text/htm

2020-06-17 07:07:56

7

原创圖像驗證碼識別（兩種方式）

準備庫： PIL pytesseract PIL：用於處理驗證碼圖片 pytesseract：用於識別圖片文字準備工具： Tesseract Ocr 下載地址 http://digi.bib.uni-mannheim.de/t

2020-06-17 07:07:56

原创 WebSocket反爬蟲

WebSocket 側重點在Socket。在客戶端與服務器之間交換數據，當兩者連接成功時,就可以保持長期連接，服務器可以直接向客戶端推送數據，無需通過客戶端發送多次請求。對於某些網站，服務器需要給客戶端（瀏覽器）不斷更新信息

2020-06-17 07:07:45

2

原创圖片文字型混合反爬蟲

在一些網站中，當正常瀏覽頁面時，看不出端倪，但是通過查看HTML源代碼時，就發現數據不正常顯示，爬蟲程序則無法獲取。在網站中，頁面顯示文字時，帶有文字的圖片和正常文字混合顯示在一起，在源代碼中，是以圖片方式顯示，這樣的方式，

2020-06-17 07:07:45

3

原创字體映射反爬蟲

在網站中，頁面正常顯示，但是查看源代碼時，沒有對應的信息，而是一些錯誤的信息。在源代碼中，對應標籤中的信息是錯亂的，當爬蟲請求時，代碼響應回來的html源代碼，根本無法直接採集下來，如下圖。相應源代碼：呈現過程

2020-06-17 07:07:45

1

原创 python實現字符串的倒序（五種）

今天看到一個面試題，說實現一串字符串的倒序。如：“abcde" --> "edcba" 使用python的特性 s = "abcde" def str_reverse1(s): return s[::-1] if _

2020-06-02 21:53:28

原创 css偏移反爬蟲

網站中，頁面正常顯示，但是源代碼中確找不到相關的數據，帶是一個或多個帶樣式的標籤。 css偏移反爬蟲，在反爬技術中也用得比較多的，都是爲阻止爬蟲工程師採集頁面的數據，它的特點在於計算。源代碼中，它們的數據錯亂不堪，但是前端工程

2020-04-02 23:30:12

3

原创 05.簽名驗證反爬蟲

簽名驗證，與Cookie驗證類似，但是它的數據顯示在XHR類型文件中，是AJAX技術。對於部分網站，在發送網絡請求時，通過抓包，它發送多個請求，通過分析，它的響應值則在Type 爲 XHR 的響應中，而不是在text/htm

2020-03-17 11:14:02

3

原创 04.Cookie反爬蟲

爬蟲程序中，默認情況下，只請求HTML文本資源，這意味着它們不會主動完成瀏覽器保存Cookie操作。 - 瀏覽器工作：瀏覽器在請求時，自動檢查響應頭中是否存在Set-Cookie，如果存在，則保存在本地，請求時，就會帶上對應

2020-03-15 03:19:38

1

原创 03.User-Agent反爬蟲

在網絡請求中，User-Agent是客戶端表明身份的一種標識，在服務器中，可以判斷User-Agent是否爲瀏覽器行爲。瀏覽器User-Agent如下: Chrome: Mozilla/5.0 (Windows NT 6.1;

2020-03-14 02:08:47

3

原创談談Python 中列表與元組

列表與元組的基本區別這裏就不說了，百度上大把，我們就談談百度上稀少的吧。把列表與元組看作數組在創建一個列表或元組時，我們必須分配一塊系統內存，而這個內存空間是連續的，Python又是基於C而來，那麼結合C，可以知

2020-02-22 23:54:31