在網站中,頁面正常顯示,但是查看源代碼時,沒有對應的信息,而是一些錯誤的信息。
在源代碼中,對應標籤中的信息是錯亂的,當爬蟲請求時,代碼響應回來的html源代碼,根本無法直接採集下來,如下圖。
相應源代碼:
呈現過程:
俗話說“有因必有果”,代碼的出現,也是線索開始。分析代碼可以找到字體文件,代碼標籤中相應的信息,也是字體映射關係,
將網頁中對應字體下載下來,打開字體文件,可以分析代碼,如下圖。
反爬突破:
以下列舉解決字體映射方式的三種方式:
- 對於字體不多的字體文件,有人喜歡通過將其截圖下來,通過圖片識別來解決。
- 通過源代碼中提供的信息,與字體文件作對比,分析映射關係。
- 使用Python提供的庫打開文件,根據字符編碼,找到字形輪廓信息與基準字形輪廓信息對比,得出對比結果。
結合代碼解決問題:
- 訪問源代碼;
- 採集對應標籤信息;
- 下載對應字體文件;
- 分析字體映射關係;
- 使用代碼實現映射關係。