在网站中,网页正常显示,但是源代码对应标签中没有显示信息,而网页中则有信息显示,标签中唯一可用的信息则是class标签。
像此类反爬网页中,它出现了一个新的概念,分析页面中引入了xxx.svg的文件,而class标签则与这个文件相关联,请求xxx.svg文件则出现一堆的信息排列,而页面中的信息则出现在这堆信息排列中。
如下图:
简单了解SVG
页面中显示的代码:
源代码:
通过例子可以清楚看到,页面中引用svg标签,然后对x-y座标,进行位置排版。
结合页面进行映射:
svg映射大多以css样式进行,如下图:
反爬解析:
看到此方式,解析方式已经很清晰了,思路如下:
- 获取源代码;
- 解析class样式,将信息采集下来;
- 获取svg文件源代码;
- 获取css样式中对应的座标;
- 计算位置差距,进行关系映射。