字體映射反爬蟲

在網站中,頁面正常顯示,但是查看源代碼時,沒有對應的信息,而是一些錯誤的信息。

  在源代碼中,對應標籤中的信息是錯亂的,當爬蟲請求時,代碼響應回來的html源代碼,根本無法直接採集下來,如下圖。



在這裏插入圖片描述
  相應源代碼:
在這裏插入圖片描述

呈現過程:

  俗話說“有因必有果”,代碼的出現,也是線索開始。分析代碼可以找到字體文件,代碼標籤中相應的信息,也是字體映射關係,

  將網頁中對應字體下載下來,打開字體文件,可以分析代碼,如下圖。


在這裏插入圖片描述

反爬突破:

以下列舉解決字體映射方式的三種方式:

  1. 對於字體不多的字體文件,有人喜歡通過將其截圖下來,通過圖片識別來解決。
  2. 通過源代碼中提供的信息,與字體文件作對比,分析映射關係。
  3. 使用Python提供的庫打開文件,根據字符編碼,找到字形輪廓信息與基準字形輪廓信息對比,得出對比結果。
結合代碼解決問題:
  1. 訪問源代碼;
  2. 採集對應標籤信息;
  3. 下載對應字體文件;
  4. 分析字體映射關係;
  5. 使用代碼實現映射關係。
練手與相關鏈接:

字體反爬1


字體反爬2

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章