在網站中,網頁正常顯示,但是源代碼對應標籤中沒有顯示信息,而網頁中則有信息顯示,標籤中唯一可用的信息則是class標籤。
像此類反爬網頁中,它出現了一個新的概念,分析頁面中引入了xxx.svg的文件,而class標籤則與這個文件相關聯,請求xxx.svg文件則出現一堆的信息排列,而頁面中的信息則出現在這堆信息排列中。
如下圖:
簡單瞭解SVG
頁面中顯示的代碼:
源代碼:
通過例子可以清楚看到,頁面中引用svg標籤,然後對x-y座標,進行位置排版。
結合頁面進行映射:
svg映射大多以css樣式進行,如下圖:
反爬解析:
看到此方式,解析方式已經很清晰了,思路如下:
- 獲取源代碼;
- 解析class樣式,將信息採集下來;
- 獲取svg文件源代碼;
- 獲取css樣式中對應的座標;
- 計算位置差距,進行關係映射。