圖片文字型混合反爬蟲

原創

2020-06-17 07:07

在一些網站中，當正常瀏覽頁面時，看不出端倪，但是通過查看HTML源代碼時，就發現數據不正常顯示，爬蟲程序則無法獲取。

在網站中，頁面顯示文字時，帶有文字的圖片和正常文字混合顯示在一起，在源代碼中，是以圖片方式顯示，這樣的方式，對於爬蟲程序來說，不去識別圖片中的文字，由採集的數據是不合格的。如：網站中電影評分，商家聯繫電話，文章訪問量等，如下圖。

網頁顯示方式：

爲了防止爬蟲工程師的採集網站中的數據，在網站中把部分顯示文字方式的數據改爲文字顯示。

爬蟲突破：

對於此類網站，如果要實破，則必須使用圖片識別工具,過程如下：

1.網頁獲取圖片url；

2.下載圖片文件並讀取文件數據流；

3.使用圖片識別工具，識別文字。

圖片識別：

圖片識別：可以使用pytesseract庫，前提是要安裝好Tesseract-OCR 工具。但是它是有缺點的，對有混淆的圖片，如驗證碼、帶有中文字體、手寫字體是很難識別的。對於這種問題，可以通過文字訓練來讓強化識別能力，也可以使用第三方api去實現，如騰訊雲，華爲雲，阿里雲等。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

SVG映射反爬蟲

在網站中，網頁正常顯示,但是源代碼對應標籤中沒有顯示信息，而網頁中則有信息顯示，標籤中唯一可用的信息則是class標籤。像此類反爬網頁中，它出現了一個新的概念，分析頁面中引入了xxx.svg的文件，而class標籤則與這個文

2020-06-17 08:00:33

動態渲染反爬蟲

爲了提高用戶的體驗，大部分網站都使用動態渲染，即使用JavaScript代碼來實現。動態渲染，由JavaScript改變HTML DOM 導致頁面內容發生變化的現象，不僅提高了網頁的交互性，還提升網頁的加載速度，爲用戶提供了

2020-06-17 08:00:33

Cookie反爬蟲

爬蟲程序中，默認情況下，只請求HTML文本資源，這意味着它們不會主動完成瀏覽器保存Cookie操作。 - 瀏覽器工作：瀏覽器在請求時，自動檢查響應頭中是否存在Set-Cookie，如果存在，則保存在本地，請求時，就會帶上對應

2020-06-17 07:07:56

簽名驗證反爬蟲

簽名驗證，與Cookie驗證類似，但是它的數據顯示在XHR類型文件中，是AJAX技術。對於部分網站，在發送網絡請求時，通過抓包，它發送多個請求，通過分析，它的響應值則在Type 爲 XHR 的響應中，而不是在text/htm

2020-06-17 07:07:56

WebSocket反爬蟲

WebSocket 側重點在Socket。在客戶端與服務器之間交換數據，當兩者連接成功時,就可以保持長期連接，服務器可以直接向客戶端推送數據，無需通過客戶端發送多次請求。對於某些網站，服務器需要給客戶端（瀏覽器）不斷更新信息

2020-06-17 07:07:45

字體映射反爬蟲

在網站中，頁面正常顯示，但是查看源代碼時，沒有對應的信息，而是一些錯誤的信息。在源代碼中，對應標籤中的信息是錯亂的，當爬蟲請求時，代碼響應回來的html源代碼，根本無法直接採集下來，如下圖。相應源代碼：呈現過程

2020-06-17 07:07:45

css偏移反爬蟲

2020-04-02 23:30:12

05.簽名驗證反爬蟲

2020-03-17 11:14:02

04.Cookie反爬蟲

2020-03-15 03:19:38

03.User-Agent反爬蟲

2020-03-14 02:08:47

SVG映射反爬蟲

在網站中，網頁正常顯示,但是源代碼對應標籤中沒有顯示信息，而網頁中則有信息顯示，標籤中唯一可用的信息則是class標籤。像此類反爬網頁中，它出現了一個新的概念，分析頁面中引入了xxx.svg的文件，而class標籤則與這個文

2020-06-17 08:00:33

動態渲染反爬蟲

爲了提高用戶的體驗，大部分網站都使用動態渲染，即使用JavaScript代碼來實現。動態渲染，由JavaScript改變HTML DOM 導致頁面內容發生變化的現象，不僅提高了網頁的交互性，還提升網頁的加載速度，爲用戶提供了

2020-06-17 08:00:33

Cookie反爬蟲

爬蟲程序中，默認情況下，只請求HTML文本資源，這意味着它們不會主動完成瀏覽器保存Cookie操作。 - 瀏覽器工作：瀏覽器在請求時，自動檢查響應頭中是否存在Set-Cookie，如果存在，則保存在本地，請求時，就會帶上對應

2020-06-17 07:07:56

簽名驗證反爬蟲

簽名驗證，與Cookie驗證類似，但是它的數據顯示在XHR類型文件中，是AJAX技術。對於部分網站，在發送網絡請求時，通過抓包，它發送多個請求，通過分析，它的響應值則在Type 爲 XHR 的響應中，而不是在text/htm

2020-06-17 07:07:56

WebSocket反爬蟲

WebSocket 側重點在Socket。在客戶端與服務器之間交換數據，當兩者連接成功時,就可以保持長期連接，服務器可以直接向客戶端推送數據，無需通過客戶端發送多次請求。對於某些網站，服務器需要給客戶端（瀏覽器）不斷更新信息

2020-06-17 07:07:45

24小時熱門文章

最新文章

最新評論文章